PUÒ UN MODELLO DI COMPUTER PREVEDERE IL PRIMO ROUND DELLA FOLLIA DELLA MARCIA DI QUEST'ANNO? | INNOVAZIONE | SMITHSONIAN - ARTICOLI, INNOVAZIONE, TECNOLOGIA

"Attenti alle idi di marzo". Sì, è finalmente di nuovo quel periodo dell'anno: quando gli imperatori del basket universitario devono guardarsi le spalle, per timore che i semi umili dello sciopero del torneo.

Prima del 15 marzo, milioni in tutto il mondo riempiranno le loro parentesi March Madness. Nel 2017, ESPN ha ricevuto un record di 18, 8 milioni di parentesi.

Il primo passo per una parentesi perfetta è scegliere correttamente il primo round. Sfortunatamente, la maggior parte di noi non può predire il futuro. L'anno scorso, solo 164 delle parentesi presentate erano perfette durante il primo turno, meno dello 0, 001 percento.

18, 8 milioni di parentesi presentate.

164 sono perfetti dopo il Round 1.

Ecco a fare troppo. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
- ESPN Fantasy Sports (@ESPNFantasy) 18 marzo 2017

Molte parentesi vengono eliminate quando una squadra con seme inferiore turba il seme superiore favorito. Da quando il campo si è allargato a 64 squadre nel 1985, almeno otto sconvolgimenti si verificano in media ogni anno. Se vuoi vincere il tuo pool di parentesi, è meglio scegliere almeno alcuni sconvolgimenti.

Siamo due dottorandi in matematica. candidati alla Ohio State University che hanno una passione per la scienza dei dati e il basket. Quest'anno, abbiamo deciso che sarebbe stato divertente costruire un programma per computer che utilizza un approccio matematico per prevedere i turbamenti del primo round. Se abbiamo ragione, una parentesi scelta usando il nostro programma dovrebbe funzionare meglio durante il primo round rispetto alla parentesi media.

Umani fallibili

Non è facile identificare quale dei giochi del primo turno si tradurrà in un turbamento.

Di 'che devi decidere tra il seme n. 10 e il seme n. 7. Il seme n. 10 ha ottenuto turbolenze nelle sue ultime tre apparizioni nei tornei, una volta arrivando persino alle Final Four. Il seme n. 7 è una squadra che ha ricevuto poca o nessuna copertura nazionale; il fan occasionale probabilmente non ne ha mai sentito parlare. Quale sceglieresti?

Se avessi scelto il seme n. 10 nel 2017, avresti frequentato la Virginia Commonwealth University a Saint Mary's of California - e avresti sbagliato. Grazie a un errore decisionale chiamato distorsione da recency, gli umani possono essere indotti a usare le loro osservazioni più recenti per prendere una decisione.

La distorsione da recency è solo un tipo di distorsione che può infiltrarsi nel processo di raccolta di qualcuno, ma ce ne sono molti altri. Forse sei di parte nei confronti della tua squadra di casa, o forse ti identifichi con un giocatore e desideri disperatamente che abbia successo. Tutto ciò influenza la tua parentesi in un modo potenzialmente negativo. Anche i professionisti esperti cadono in queste trappole.

Disturbi della modellazione

L'apprendimento automatico può difendersi da queste insidie.

Nell'apprendimento automatico, statistici, matematici e scienziati informatici addestrano una macchina per fare previsioni lasciandola "imparare" dai dati passati. Questo approccio è stato utilizzato in molti campi diversi, tra cui marketing, medicina e sport.

Le tecniche di apprendimento automatico possono essere paragonate a una scatola nera. In primo luogo, si alimentano i dati passati dell'algoritmo, essenzialmente impostando i quadranti sulla scatola nera. Una volta calibrate le impostazioni, l'algoritmo può leggere nuovi dati, confrontarli con i dati passati e quindi sputare le sue previsioni.

Una vista black box di algoritmi di machine learning. (Matthew Osborne, CC BY-SA)

Nell'apprendimento automatico sono disponibili diverse scatole nere. Per il nostro progetto March Madness, quelli che volevamo sono noti come algoritmi di classificazione. Questi ci aiutano a determinare se un gioco deve essere classificato o meno come un turbamento, fornendo la probabilità di un turbamento o classificando esplicitamente un gioco come tale.

Il nostro programma utilizza una serie di algoritmi di classificazione popolari, tra cui regressione logistica, modelli di foresta casuali e k-vicini più vicini. Ogni metodo è come un "marchio" diverso della stessa macchina; lavorano diversamente sotto il cofano di Fords e Toyotas, ma svolgono lo stesso lavoro di classificazione. Ogni algoritmo, o casella, ha le sue previsioni sulla probabilità di un turbamento.

Abbiamo usato le statistiche di tutte le squadre del primo turno dal 2001 al 2017 per impostare i quadranti sulle nostre scatole nere. Quando abbiamo testato uno dei nostri algoritmi con i dati del primo round del 2017, aveva un tasso di successo di circa il 75%. Questo ci dà la fiducia che l'analisi dei dati passati, piuttosto che confidare nel nostro intestino, possa portare a previsioni più accurate degli sconvolgimenti, e quindi a migliori parentesi complessive.

Quali vantaggi hanno queste scatole rispetto all'intuizione umana? Per uno, le macchine possono identificare i modelli in tutti i dati 2001-2017 in pochi secondi. Inoltre, poiché le macchine si basano solo sui dati, potrebbe essere meno probabile che ricadano per pregiudizi psicologici umani.

Questo non vuol dire che l'apprendimento automatico ci fornirà parentesi perfette. Anche se la scatola elude il pregiudizio umano, non è immune da errori. I risultati dipendono dai dati passati. Ad esempio, se un seme n. 1 dovesse perdere nel primo round, il nostro modello probabilmente non lo prevederebbe, perché non è mai successo prima.

Inoltre, gli algoritmi di apprendimento automatico funzionano meglio con migliaia o addirittura milioni di esempi. Dal 2001 sono state giocate solo 544 partite di March Madness al primo turno, quindi i nostri algoritmi non chiameranno correttamente ogni disturbo. Facendo eco all'esperto di pallacanestro Jalen Rose, la nostra produzione dovrebbe essere utilizzata come uno strumento in combinazione con le tue conoscenze specialistiche - e fortuna! - per scegliere i giochi corretti.

Follia di machine learning?

Non siamo le prime persone ad applicare l'apprendimento automatico a March Madness e non saremo gli ultimi. In effetti, le tecniche di apprendimento automatico potrebbero presto essere necessarie per rendere competitiva la tua staffa.

Non hai bisogno di una laurea in matematica per usare l'apprendimento automatico, anche se ci aiuta. Presto l'apprendimento automatico potrebbe essere più accessibile che mai. Chi è interessato può dare un'occhiata ai nostri modelli online. Sentiti libero di esplorare i nostri algoritmi e persino di proporre un approccio migliore a te stesso.

Questo articolo è stato originariamente pubblicato su The Conversation.

Matthew Osborne, Ph.D Candidate in Mathematics, The Ohio State University

Kevin Nowland, Ph.D Candidate in Mathematics, The Ohio State University