https://frosthead.com

Un modello statistico può prevedere con precisione il conteggio delle medaglie olimpiche?

Se qualcuno ti chiedesse di prevedere il numero di medaglie che ogni paese vincerà alle Olimpiadi di quest'anno, probabilmente proveresti a identificare gli atleti favoriti in ciascun evento, quindi il totale delle vittorie previste per ciascun paese arriverà a un risultato.

Tim e Dan Graettinger, i fratelli dietro la società di data mining Discovery Corps, Inc., hanno un approccio piuttosto diverso. Ignorano del tutto gli atleti.

Invece, il loro modello per i giochi di Sochi esamina l'area geografica di ciascun paese, il PIL pro capite, il valore totale delle esportazioni e la latitudine per determinare quante medaglie vinceranno ciascun paese. Nel caso ti stia chiedendo, si prevede che gli Stati Uniti verranno in cima, con 29 medaglie in totale.

I Graettinger non sono i primi a utilizzare questo tipo di approccio top-down basato sui dati per prevedere il conteggio delle medaglie. Daniel Johnson, professore di economia del Colorado College, ha costruito modelli simili per le cinque Olimpiadi tra il 2000 e il 2008, raggiungendo una precisione complessiva del 94 percento nel prevedere il numero di medaglie di ciascun paese, ma non ha creato un modello per Sochi.

Dan e Tim sono più recenti nel gioco. Dan, che in genere lavora a progetti di data mining più convenzionali, ad esempio prevedendo i potenziali clienti di un'azienda, si è interessato per la prima volta a utilizzare i modelli per prevedere le competizioni quattro anni fa, durante le Olimpiadi invernali di Vancouver. "Uso i dati sul passato per prevedere il futuro in continuazione", afferma. "Ogni notte, avrebbero mostrato il conteggio delle medaglie in TV, e ho iniziato a chiedermi se potevamo prevederlo."

Anche se le prestazioni dei singoli atleti possono variare in modo imprevedibile, ha spiegato, potrebbe esserci una relazione generale tra le caratteristiche fondamentali di un paese (ad esempio le sue dimensioni, il clima e la quantità di ricchezza) e il numero di medaglie che probabilmente porterebbe a casa. Questo tipo di approccio non sarebbe in grado di dire quale concorrente potrebbe vincere un determinato evento, ma con dati sufficienti, potrebbe essere in grado di prevedere con precisione il conteggio delle medaglie aggregate per ciascun paese.

Inizialmente, lui e suo fratello si misero al lavoro per sviluppare un modello preliminare per i giochi di Londra del 2012. Per cominciare, hanno raccolto una vasta gamma di diversi tipi di set di dati, su tutto, dalla geografia di un paese alla sua storia, religione, ricchezza e struttura politica. Quindi, hanno usato analisi di regressione e altri metodi di analisi dei dati per vedere quali variabili avevano la relazione più stretta con i dati storici sulle medaglie olimpiche.

Hanno scoperto che, per i giochi estivi, un modello che incorporava il prodotto interno lordo di un paese, la popolazione, la latitudine e la libertà economica complessiva (come misurato dall'indice della Heritage Foundation) era meglio correlato al conteggio delle medaglie di ciascun paese per le due precedenti Olimpiadi estive (2004 e 2008). Ma a quel punto, il loro modello preliminare poteva solo prevedere quali paesi avrebbero vinto due o più medaglie, non il numero di medaglie per paese.

Hanno deciso di migliorarlo per i giochi di Sochi, ma non hanno potuto fare affidamento sul loro modello precedente, perché i paesi che hanno successo in inverno differiscono molto dall'estate. Il loro nuovo modello di Sochi affronta il problema della previsione del conteggio delle medaglie in due fasi. Poiché circa il 90 percento dei paesi non ha mai vinto una sola medaglia alle Olimpiadi invernali (nessun atleta mediorientale, sudamericano, africano o caraibico ha mai vinto), prima separa il dieci percento che probabilmente ne vincerà almeno uno, quindi prevede quanti ognuno vincerà.

"Alcune tendenze sono più o meno quelle che ti aspetteresti: man mano che la popolazione di un paese aumenta, c'è una maggiore probabilità che vincerà una medaglia", afferma Tim. "Alla fine, però, hai bisogno di alcuni macchinari statistici più potenti in grado di macinare molte variabili e classificarle in base alle quali sono le più predittive."

Alla fine, hanno scoperto alcune variabili che separano accuratamente il novanta percento dei paesi non vincitori di medaglie dal dieci percento che probabilmente vincerà: questi includevano il tasso di migrazione, il numero di medici pro capite, la latitudine, il prodotto interno lordo e se il paese avesse ha vinto una medaglia nelle precedenti partite estive (nessun paese aveva mai vinto una medaglia invernale senza averne vinto una l'estate precedente, in parte perché il pool di vincitori estivi è molto più grande di quello invernale). Eseguendo questo modello nelle ultime due Olimpiadi invernali, questo modello ha determinato quali nazioni hanno portato a casa una medaglia con un'accuratezza del 96, 5 percento.

Con il 90 percento dei paesi eliminati, i Graettinger hanno utilizzato analisi di regressione simili per creare un modello che prevedesse, in modo retroattivo, quante medaglie ogni paese rimanente avesse vinto. La loro analisi ha rilevato che un elenco leggermente diverso di variabili si adatta meglio ai dati storici della medaglia. Queste variabili insieme alle previsioni per i giochi di Sochi sono di seguito:

Immagine 4-Predicted Medal Table 2 - with Borders.png Le previsioni del modello per i giochi di Sochi (grafico per gentile concessione di Discovery Corps, Inc.)

Alcune delle variabili che si sono rivelate correlative non sono un grosso shock - ha senso che i paesi a latitudine più elevata facciano meglio agli eventi giocati durante i giochi invernali - ma alcuni sono stati più sorprendenti.

"Pensavamo che la popolazione, non la superficie, sarebbe importante", afferma Dan. Non sono sicuri del perché l'area geografica finisca per adattarsi più da vicino ai dati storici, ma potrebbe essere perché alcuni paesi ad alta popolazione che non vincono medaglie invernali (come India e Brasile) eliminano i dati. Utilizzando invece l'area terrestre, il modello evita l'influenza fuori misura di questi paesi, ma mantiene ancora un'associazione approssimativa con la popolazione, perché nel complesso, i paesi con aree più estese hanno popolazioni più grandi.

Certo, il modello non è perfetto, anche nell'abbinamento dei dati storici. "Il nostro approccio è l'approccio di 30.000 piedi. Ci sono variabili che non possiamo spiegare", dice Tim. Alcuni paesi hanno sovraperformato ripetutamente le previsioni del modello (compresa la Corea del Sud, che vince una quantità sproporzionata di eventi di pattinaggio di velocità su pista corta) mentre altri costantemente sottoperformano (come il Regno Unito, che sembra fare molto meglio agli eventi estivi che ci si aspetterebbe, forse perché - nonostante la sua latitudine - c'è molta più pioggia che neve).

Inoltre, un'eccezione costante che hanno riscontrato nelle previsioni del modello è che il paese ospitante raccoglie più medaglie di quanto non farebbe altrimenti, basandosi semplicemente sui dati. Sia l'Italia (durante le partite di Torino del 2006) che il Canada (durante le partite di Vancouver del 2010) hanno superato il modello, con il Canada che ha stabilito il suo record assoluto vincendo 14 ori.

Tuttavia, sulla base del loro approccio statisticamente rigoroso, i Graettinger sono fiduciosi che, nel complesso, il loro modello prevede il conteggio delle medaglie finali con un grado di accuratezza relativamente elevato.

In che modo le loro previsioni si confrontano con quelle degli esperti che usano strategie più convenzionali? Gli esperti non differiscono notevolmente, ma hanno alcuni paesi tradizionalmente di successo (Norvegia, Canada, Russia) che vincono un numero maggiore di medaglie, insieme ad alcuni altri (Cina, Paesi Bassi, Australia) che vincono ciascuno di meno.

Fino ad oggi, i Graettinger non hanno scommesso sulle loro previsioni, ma hanno in programma di confrontare l'output del loro modello con le probabilità di scommessa appena prima che il gioco inizi. Se vedono delle discrepanze che vorrebbero sfruttare, potrebbero finire per mettere i loro soldi dove è la loro bocca.

Un modello statistico può prevedere con precisione il conteggio delle medaglie olimpiche?