https://frosthead.com

Perché le tendenze influenzali di Google non riescono a tenere traccia dell'influenza (ancora)

Nel 2008, Google ha annunciato un nuovo intrigante servizio chiamato Google Trend influenzali. Gli ingegneri dell'azienda avevano osservato che alcune query di ricerca (come quelle che includevano le parole "febbre" o tosse ") sembravano aumentare ogni stagione dell'influenza. La loro idea era quella di utilizzare la frequenza di queste ricerche per calcolare i tassi di influenza a livello nazionale più velocemente di quanto potesse essere fatto con dati convenzionali (che in genere richiedono alcune settimane per essere raccolti e analizzati), facendo sapere alle persone quando prendere ulteriori precauzioni per evitare di contrarre il virus.

Contenuto relativo

  • In che modo i modelli meteorologici e Google potrebbero aiutare a prevedere la stagione influenzale
  • Big data o troppe informazioni?

I media (incluso questo giornalista) si sono affrettati a congratularsi con Google per un uso così approfondito, innovativo e dirompente dei big data. L'unico problema? Google Trend influenzali non ha funzionato molto bene.

Il servizio ha costantemente sovrastimato i tassi di influenza, rispetto ai dati convenzionali raccolti in seguito dal CDC, stimando l'incidenza dell'influenza come più elevata di quanto non fosse in realtà per 100 delle 108 settimane tra agosto 2011 e settembre 2013. Nel gennaio 2013, quando nazionale i tassi di influenza hanno raggiunto il picco ma le stime di Google Trend influenzali erano due volte più elevate rispetto ai dati reali, la sua inesattezza ha finalmente iniziato a raccogliere la copertura stampa.

La spiegazione più comune per la discrepanza è stata che Google non ha tenuto conto della crescita delle domande relative all'influenza che si verificano a causa dell'isteria influenzale causata dai media che si verifica ogni inverno. Ma questa settimana su Science, un gruppo di scienziati sociali guidati da David Lazer propone una spiegazione alternativa: è da biasimare le modifiche di Google al suo algoritmo di ricerca.

È certamente difficile per gli estranei analizzare le tendenze dell'influenza di Google, perché la società non rende pubblici i termini di ricerca specifici che utilizza come dati non elaborati, o il particolare algoritmo che utilizza per convertire la frequenza di questi termini in valutazioni dell'influenza. Ma i ricercatori hanno fatto del loro meglio per dedurre i termini utilizzando Google Correlate, un servizio che consente di esaminare le tariffe di determinati termini di ricerca nel tempo.

Quando i ricercatori hanno fatto questo per una serie di domande sull'influenza negli ultimi anni, hanno scoperto che un paio di ricerche chiave (quelle per i trattamenti contro l'influenza e quelle che chiedevano come differenziare l'influenza dal raffreddore) seguivano più da vicino con l'influenza di Google Stime delle tendenze rispetto alle effettive percentuali di influenza, soprattutto quando Google ha sopravvalutato la prevalenza del disturbo. Queste ricerche particolari, a quanto pare, potrebbero essere una parte enorme del problema di inesattezza.

C'è un'altra buona ragione per sospettare che questo potrebbe essere il caso. Nel 2011, nell'ambito di una delle sue regolari modifiche all'algoritmo di ricerca, Google ha iniziato a raccomandare termini di ricerca correlati per molte query (inclusa la lista di una ricerca di trattamenti antinfluenzali dopo che qualcuno ha cercato su Google molti termini correlati all'influenza) e nel 2012, la società ha iniziato a fornire potenziali diagnosi in risposta ai sintomi nelle ricerche (incluso l'elenco di "influenza" e "raffreddore" dopo una ricerca che includeva la frase "mal di gola", ad esempio, forse spingendo un utente a cercare come distinguere tra i due). Queste modifiche, sostengono i ricercatori, probabilmente hanno aumentato artificialmente i tassi delle ricerche che hanno identificato come responsabili delle sopravvalutazioni di Google.

Ovviamente, se questa ipotesi fosse vera, non significherebbe che Google Trend influenzali è inevitabilmente destinato a essere inaccurato, solo che deve essere aggiornato per tenere conto delle costanti modifiche del motore di ricerca. Ma Lazer e gli altri ricercatori sostengono che il monitoraggio dell'influenza da big data è un problema particolarmente difficile.

Una grande percentuale dei termini di ricerca correlati ai dati CDC sui tassi di influenza, risulta, non è causata da persone che ottengono l'influenza, ma da un terzo fattore che influenza sia i modelli di ricerca che la trasmissione dell'influenza: l'inverno. In effetti, gli sviluppatori di Google Trend influenzali hanno riferito di imbattersi in termini particolari - quelli relativi al basket delle scuole superiori, ad esempio - che erano correlati con i tassi di influenza nel tempo ma chiaramente non avevano nulla a che fare con il virus.

Nel corso del tempo, gli ingegneri di Google hanno rimosso manualmente molti termini correlati alle ricerche sull'influenza, ma non hanno nulla a che fare con l'influenza, ma il loro modello era chiaramente ancora troppo dipendente dalle tendenze di ricerca stagionali non influenzali, parte del motivo per cui Google Trend influenzali non è riuscito a riflettere il Epidemia del 2009 di H1N1, avvenuta durante l'estate. Soprattutto nelle sue versioni precedenti, Google Trend influenzali era "in parte rilevatore di influenza, in parte rilevatore invernale", scrivono gli autori del documento Science .

Ma tutto ciò può essere una lezione per l'uso dei big data in progetti come Google Trend influenzali, piuttosto che un atto d'accusa generale, affermano i ricercatori. Se aggiornato correttamente per tener conto delle modifiche all'algoritmo di Google e rigorosamente analizzato per rimuovere fattori puramente stagionali, potrebbe essere utile per documentare i tassi di influenza a livello nazionale, specialmente se combinato con dati convenzionali.

Come test, i ricercatori hanno creato un modello che combinava i dati di Google Trend influenzali (che sono essenzialmente in tempo reale, ma potenzialmente inaccurati) con dati CDC vecchi di due settimane (che è datato, perché richiede tempo per la raccolta, ma potrebbe ancora essere un po 'indicativo degli attuali tassi di influenza). Il loro ibrido corrispondeva molto più strettamente ai dati attuali e attuali dell'influenza rispetto a Google Trend influenzali e presentava un modo per ottenere queste informazioni molto più rapidamente che aspettare due settimane per i dati convenzionali.

"La nostra analisi di Google Influenza dimostra che i migliori risultati provengono dalla combinazione di informazioni e tecniche provenienti da entrambe le fonti", ha dichiarato Ryan Kennedy, professore di scienze politiche e co-autore dell'Università di Houston. "Invece di parlare di una" rivoluzione dei big data ", dovremmo discutere di una" rivoluzione di tutti i dati "."

Perché le tendenze influenzali di Google non riescono a tenere traccia dell'influenza (ancora)