EURO Predictions Day 3

Προβλέψεις για το ΕΥΡΩΠΑΪΚΟ ΠΡΩΤΑΘΛΗΜΑ ΠΟΔΟΣΦΑΙΡΟΥ 2024 βασισμένες σε Στατιστικά Μοντέλα Αναλυτικής Ποδοσφαίρου

Ερευνητική ομάδα AUEB & Trieste Sports Analytics,

Οικονομικό Πανεπιστήμιο Αθηνών και Πανεπιστήμιο της Τεργέστης

Το παρόν άρθρο επιμελήθηκαν και συνέγραψαν ο Ιωάννης Ντζούφρας, Καθηγητής Στατιστικής του ΟΠΑ, και η Αργυρώ Δαμουλάκη, Υποψήφια Διδάκτωρ στο ίδιο τμήμα. Το άρθρο είναι βασισμένο στην ανάλυση της συνεργαζόμενης ομάδας της Τεργέστης (καθηγητή Leonardo Egidi και τους υποψήφιους διδάκτορες Roberto Μacri Demartino και Giulio Fantuzzi) με τη συνδρομή των Β. Παλάσκα (OpenBet, ανάπτυξη εφαρμογής) Δ. Καρλή (Στατιστική ΟΠΑ, σύμβουλος ανάλυσης). Το τελικό αποτέλεσμα είναι συνεργασία των ερευνητικών ομάδων των δύο πανεπιστημίων σε θέματα Αναλυτικής του Αθλητισμού.

***

Στην δεύτερη αγωνιστική του Ευρωπαϊκού πρωταθλήματος επικράτησαν τα ισόπαλα αποτελέσματα, μεταξύ των οποίων ξεχωρίζουμε τους βαθμούς που «στερήθηκε» η Αγγλία, Τσεχία και Ελβετία, μην καταφέρνοντας να κερδίσουν τους πιο εύκολους αντιπάλους τους, αλλά και τον αγώνα μεταξύ Κροατίας-Αλβανίας, όπου η δεύτερη δείχνει ότι έχει έρθει αποφασισμένη, είναι ανταγωνιστική και παλεύει για να επιτύχει την πρόκριση στην επόμενη φάση. Οπότε, αρχικά, θα κάνουμε έναν σύντομο απολογισμό των προβλέψεων μας για την δεύτερη αγωνιστική και θα παρουσιάσουμε τα «προγνωστικά» μας για την τρίτη και ιδιαίτερα κρίσιμη αγωνιστική της διοργάνωσης. 

Υπενθύμιση για τους φίλους της Στατιστικής   

Η χρήση στατιστικών τεχνικών για την πρόβλεψη αγώνων ποδοσφαίρου πρώτο-εμφανίστηκε στην επιστημονική βιβλιογραφία το 1968 με την πρωτοπόρα επιστημονική δημοσίευση των Reep & Benjamin. Οι επόμενες πραγματικές καινοτομίες εμφανίζονται στη δεκαετία του 80 (με την εργασία του Michael Maher) και τη δεκαετία του 90 (με την εργασία του Lee το 1997). Οι πρώτες όμως σημαντικές δημοσιεύσεις στο χώρο, εισάγοντας μοντέλα στα οποία βασίζονται και μοντέλα που χρησιμοποιούμε ακόμα και σήμερα, ήταν οι εργασίες των Dixon & Coles το 1997 και το διμεταβλητό μοντέλο Poisson των Καρλή και Ντζούφρα το 2003 (δύο από τους συγγραφείς της συγκεκριμένης ανάλυσης). Τα δύο αυτά μοντέλα έθεσαν τη βάση των συγχρόνων μοντέλων πρόβλεψης των αποτελεσμάτων αγώνων ποδοσφαίρου.

Σε αυτή την ανάλυση χρησιμοποιούμε το μοντέλο των Καρλή και Ντζούφρα μέσω του πακέτου “footbayes” στη στατιστική γλώσσα προγραμματισμού R που έχουν αναπτύξει ο Καθηγητής Leonardo Egidi από το Πανεπιστήμιο της Τεργέστης με τη συνδρομή του Βασίλη Παλάσκα (Αναλυτής στην Open Bet και ενεργό μέλος του AUEB Sports Analytics Group). Το μοντέλο επίσης συμπεριλαμβάνει την εκτίμηση παραμέτρων που εκτιμούν την απόδοση κάθε ομάδας που αλλάζουν στον χρόνο. Για την εκμάθηση του μοντέλου χρησιμοποιήθηκαν όλοι οι διεθνείς αγώνες της περιόδου 2020-2024. Κύρια επεξηγηματική μεταβλητή είναι η διαφορά μεταξύ των δύο ομάδων στο δείκτη Coca-Cola/FIFA ranking.  Το μοντέλο, που προτάθηκε για πρώτη φορά από τους Καρλή & Ντζούφρα το 2003, επεκτείνει το συνηθισμένο διμεταβλητό μοντέλο Poisson.  Λεπτομέρειες για το μοντέλο στατιστικής και μηχανικής μάθησης που χρησιμοποιήθηκε θα βρείτε στο τέλος αυτού του άρθρου.

Απολογισμός 2ης αγωνιστικής

Στον Πίνακα 1 θα βρείτε τις προβλέψεις των 12 αγώνων της 2ης αγωνιστικής και τα τελικά αποτελέσματα. Όπως βλέπετε το μοντέλο κατάφερε να προβλέψει σωστά αρκετούς αγώνες (50%). Εντυπωσιακό είναι ότι επικράτησαν τα ισόπαλα αποτελέσματα στους 6 από τους 12 αγώνες στους οποίους το μοντέλο έδωσε προβάδισμα σε μία από τις δύο ομάδες. Οι πιθανότητες της ισοπαλίας που προέκυψαν από το μοντέλο δεν ήταν αμελητέες: 29% για Σλοβενία-Σερβία, 27% για Γερμανία-Ουγγαρία, 26% για Ισπανία-Ιταλία, Ολλανδία-Γαλλία και Δανία-Αγγλία και 24% για Κροατία-Αλβανία και Γεωργία-Τσεχία. Να σημειώσουμε εδώ ότι ένα λογικό μοντέλο στατιστικής και μηχανικής μάθησης σε καμία περίπτωση δε θα μπορέσει να πιάσει εκπλήξεις σαν και αυτές και μπορούν να συμβούν λόγω απλής τυχαιότητα ή καταστάσεων που δεν λαμβάνονται υπόψη από το μοντέλο.

Πίνακας 1: Πίνακας με τις πιθανότητες έκβασης των αγώνων για την 2η αγωνιστική του Ευρωπαϊκού Πρωταθλήματος 2024.

Πιθανότητες

Επικρατέστερο

Τελικό Αποτέλεσμα

Αντίπαλες ομάδες (Α-Β)

Νίκη Α

ομάδας

Ισοπαλία

Νίκη Β

ομάδας

Αποτέλεσμα

(Πιθανότητα)

Κροατία

Αλβανία

0.624

0.243

0.132

1-0 (0.170)

2-2

Γερμανία

Ουγγαρία

0.482

0.274

0.244

1-0 (0.137)

2-0

Σκωτία

Ελβετία

0.187

0.239

0.574

0-1 (0.133)

1-1

Σλοβενία

Σερβία

0.248

0.292

0.460

0-1 (0.158)

1-1

Δανία

Αγγλία

0.157

0.260

0.583

0-1 (0.169)

1-1

Ισπανία

Ιταλία

0.475

0.264

0.261

1-0 (0.124)

1-0

Σλοβακία

Ουκρανία

0.314

0.304

0.382

0-0 (0.140)

1-2

Πολωνία

Αυστρία

0.244

0.268

0.489

0-1 (0.129)

1-3

Ολλανδία

Γαλλία

0.269

0.264

0.467

0-1 (0.123)

0-0

Γεωργία

Τσεχία

0.227

0.242

0.530

0-1 (0.112)

1-1

Τουρκία

Πορτογαλία

0.118

0.183

0.699

0-2 (0.110)

0-3

Βέλγιο

Ρουμανία

0.649

0.221

0.130

1-0 (0.147)

2-0

Προβλέψεις 3ης αγωνιστικής

Στα δύο πρώτα παιχνίδια της 3ης αγωνιστικής επικράτησε δύσκολα η Ουγγαρία της Σκωτίας (πιθανότητες μοντέλου με βάση τα προηγούμενα αποτελέσματα: 45% έναντι 26%) αν και πολύ θα θεωρούσαν την Σκωτία ως ένα πιο παραδοσιακό φαβορί.

Στον άλλο αγώνα η Γερμανία δυσκολεύτηκε έναντι της Ελβετίας και απέσπασε ισοπαλία την τελευταία στιγμή. Το μοντέλο, όπως ήταν λογικό, έβλεπε τη Γερμανία ως φαβορί με πιθανότητα 45,5% αλλά η ισοπαλία είχε αρκετές πιθανότητες εμφάνισης (περίπου 26% - βασικά αν έπαιζαν 4 αγώνες οι δύο ομάδες περιμέναμε να κερδίσει η Γερμανία τους 2, 1 ισοπαλία και 1 νίκη της Ελβετίας).

Αναμένοντας με ενθουσιασμό και ανυπομονησία τους υπόλοιπους αγώνες της τρίτης αγωνιστικής, λοιπόν, συνεχίζουμε με τις προβλέψεις του μοντέλου να παρουσιάζονται στον Πίνακα 2. Λόγω φόρτου εργασίας, δυστυχώς, δεν καταφέραμε να αναρτήσουμε τις προβλέψεις πριν την έναρξη της τρίτης αγωνιστικής, αλλά είχαν αναρτηθεί ήδη νωρίτερα στη σελίδα του συνεργάτη μας Leonardo Egidi.   

Από τον πίνακα αυτό ξεχωρίζουμε τον αγώνα

  • Σλοβακία - Ρουμανία

ως τον πιο αμφίρροπο. 

Ως φαβορί ξεχωρίζουν

  1. Πορτογαλία με πιθανότητα νίκης 81% έναντι της Γεωργίας
  2. Ισπανία με πιθανότητα νίκης 77% έναντι της Αλβανίας
  3. Αγγλία με πιθανότητα νίκης 73% έναντι της Σλοβενίας
  4. Γαλλία με πιθανότητα νίκης 71% έναντι της Πολωνίας
  5. Βέλγιο με πιθανότητα νίκης 65% έναντι της Ουκρανίας

Τέλος, οι υπόλοιποι έξι αγώνες (οι μισοί!) είναι σχετικά αμφίρροποι αλλά με ελαφρό προβάδισμα της μίας από τις δύο ομάδες. Σε αυτούς τους αγώνες θεωρούμε ότι οι ομάδες είναι σχετικά κοντά και μπορεί να έρθουν και ισοπαλία λόγω τακτικής και στρατηγικής. Συγκεκριμένα, έχουμε

  1. Ολλανδία (48%) να επικρατεί της Αυστρίας (27%)
  2. Δανία (44%) να επικρατεί της Σερβίας (27%)
  3. Κροατία (41%) να επικρατεί της Ιταλίας (31%)
  4. Τσεχία (40%) να επικρατεί της Τουρκίας (34%)

Να σημειώσουμε, ότι στους τελευταίους αγώνες των ομίλων οι ομάδες δίνουν όλη τους την ενέργεια για να διεκδικήσουν μια θέση στον επόμενο γύρο, συνεπώς μερικές φορές γίνονται αλλαγές στην απόδοση των ομάδων που δεν μπορούν να καταγραφούν από ένα μοντέλο στατιστικής μηχανικής μάθησης.

Πίνακας 2: Πίνακας με τις πιθανότητες έκβασης των αγώνων για την 3η αγωνιστική του Ευρωπαϊκού Πρωταθλήματος 2024.

Πιθανότητες

Επικρατέστερο

Αντίπαλες ομάδες (Α-Β)

Νίκη Α

ομάδας

Ισοπαλία

Νίκη Β

ομάδας

Αποτέλεσμα

(Πιθανότητα)

Ελβετία

Γερμανία

0.283

0.261

0.455

0-1 (0.116)

Σκωτία

Ουγγαρία

0.262

0.288

0.450

0-1 (0.140)

Αλβανία

Ισπανία

0.058

0.170

0.772

0-2 (0.171)

Κροατία

Ιταλία

0.308

0.278

0.414

0-1 (0.120)

Γαλλία

Πολωνία

0.714

0.189

0.097

2-0 (0.138)

Ολλανδία

Αυστρία

0.482

0.250

0.267

1-0 (0.108)

Δανία

Σερβία

0.442

0.289

0.269

1-0 (0.143)

Αγγλία

Σλοβενία

0.735

0.190

0.076

1-0 (0.167)

Σλοβακία

Ρουμανία

0.319

0.312

0.369

0-0 (0.161)

Ουκρανία

Βέλγιο

0.135

0.218

0.647

0-1 (0.128)

Γεωργία

Πορτογαλία

0.060

0.130

0.810

0-3 (0.105)

Τσεχία

Τουρκία

0.401

0.263

0.336

1-1 (0.109)

Το Διάγραμμα 1 δίνει με πιο πολύ λεπτομέρεια τις πιθανότητες για το κάθε σκορ για καθένα από τους 12 αγώνες της 3ης αγωνιστικής.

Διάγραμμα  1: Διάγραμμα Πιθανοτήτων πιθανών σκορ για τους Αγώνες της 3ης αγωνιστικής του Ευρωπαϊκού Πρωταθλήματος 2024.

Βιβλιογραφία για διαβαστερούς φιλάθλους

  • Dixon, M.J. and Coles, S.G. (1997), Modelling Association Football Scores and Inefficiencies in the Football Betting Market. Journal of the Royal Statistical Society: Series C (Applied Statistics), 46, 265-280.
  • Karlis, D. and Ntzoufras, I. (2003), Analysis of sports data by using bivariate Poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52, 381-393. 
  • Lee A.J. (1997). Modeling Scores in the Premier League: Is Manchester United Really the Best?  Chance, 10, 15-19.
  • Maher, M.J. (1982), Modelling association football scores. Statistica Neerlandica, 36, 109-118.
  • Reep, C., & Benjamin, B. (1968). Skill and Chance in Association Football. Journal of the Royal Statistical Society. Series A (General), 131, 581-585.