https://frosthead.com

I tuoi tweet possono prevedere quando avrai l'influenza

Nel 1854, in risposta a una devastante epidemia di colera che stava attraversando Londra, il dottore britannico John Snow introdusse un'idea che avrebbe rivoluzionato il campo della salute pubblica: la mappa epidemiologica. Registrando casi di colera in diversi quartieri della città e tracciandoli su una mappa basata sulle residenze dei pazienti, ha scoperto che una singola pompa dell'acqua contaminata era responsabile di gran parte delle infezioni.

La mappa lo persuase - e, infine, le autorità pubbliche - che la teoria del miasma della malattia (che affermava che le malattie si diffondevano attraverso i gas nocivi) era falsa e che la teoria dei germi (che affermava correttamente che i microrganismi erano da biasimare) era vera. Hanno messo un blocco sulla maniglia della pompa responsabile dell'epidemia, segnalando un cambio di paradigma che ha cambiato in modo permanente il modo in cui trattiamo le malattie infettive e quindi i servizi igienico-sanitari.

La tecnologia di mappatura è abbastanza diversa, così come la malattia, ma c'è una certa somiglianza tra la mappa di Snow e un nuovo progetto condotto da un gruppo di ricercatori guidati da Henry Kautz dell'Università di Rochester. Creando algoritmi in grado di individuare le tendenze influenzali e fare previsioni basate su parole chiave nei tweet geotaggati pubblicamente disponibili, stanno adottando un nuovo approccio allo studio della trasmissione della malattia, uno che potrebbe cambiare il modo in cui studiamo e monitoriamo il movimento delle malattie nella società .

"Possiamo pensare alle persone come sensori che guardano il mondo che li circonda e poi segnalano ciò che stanno vedendo e sperimentando sui social media", spiega Kautz. "Questo ci consente di effettuare misurazioni dettagliate su scala demografica e non richiede la partecipazione attiva dell'utente."

In altre parole, quando twittiamo che siamo stati appena messi a tacere da una tosse dolorosa e da una febbre, forniamo inconsapevolmente dati ricchi per un enorme esperimento di salute pubblica, informazioni che i ricercatori possono utilizzare per tracciare il movimento di malattie come l'influenza in alta risoluzione e in tempo reale.

Il progetto di Kautz, chiamato SocialHealth, ha fatto uso di tweet e altri tipi di social media per tracciare una serie di problemi di salute pubblica; di recente hanno iniziato a utilizzare i tweet per monitorare casi di intossicazione alimentare nei ristoranti di New York registrando tutti coloro che avevano pubblicato tweet geotaggati da un ristorante, quindi seguendo i loro tweet per le successive 72 ore, verificando la presenza di menzioni di vomito, diarrea, dolori addominali, febbre o brividi. In tal modo, hanno rilevato 480 probabili casi di intossicazione alimentare.

Ma quando la stagione cambia, è il loro lavoro di monitoraggio del virus dell'influenza che è più aperto agli occhi. Allo stesso modo, Google Trend influenzali ha cercato di utilizzare i ricercatori di Google per monitorare il movimento dell'influenza, ma il modello ha notevolmente sopravvalutato l'epidemia dell'anno scorso, forse perché la copertura mediatica dell'influenza ha spinto le persone a iniziare a fare domande sull'influenza. L'analisi di Twitter rappresenta un nuovo set di dati con alcune qualità — una risoluzione geografica più elevata e la capacità di catturare il movimento di un utente nel tempo — che potrebbe produrre previsioni migliori.

Per iniziare il loro progetto di monitoraggio dell'influenza, i ricercatori di SocialHealth hanno esaminato in modo specifico New York, raccogliendo circa 16 milioni di tweet pubblici con geotag al mese da 600.000 utenti per tre mesi. Di seguito è riportato un time-lapse di un giorno di Twitter di New York, con colori diversi che rappresentano diverse frequenze di tweet in quella posizione (blu e verde significano meno tweet, arancione e rosso significano più):

Per utilizzare tutti questi dati, il suo team ha sviluppato un algoritmo che determina se ogni tweet rappresenta un rapporto di sintomi simil-influenzali. In precedenza, altri ricercatori lo avevano semplicemente fatto cercando parole chiave nei tweet ("malato", ad esempio), ma il suo team ha scoperto che l'approccio porta a falsi positivi: molti più utenti twittano che sono stanchi dei compiti di quanti ne siano non mi sento bene.

Per tenere conto di ciò, l'algoritmo del suo team cerca tre parole di seguito (anziché una) e considera la frequenza con cui la sequenza particolare è indicativa di una malattia, in base a una serie di tweet che avevano etichettato manualmente. La frase "malato di influenza", ad esempio, è fortemente correlata alla malattia, mentre "malato e stanco" lo è di meno. Alcune parole particolari - mal di testa, febbre, tosse - sono fortemente legate alla malattia, indipendentemente dalla sequenza di tre parole di cui fanno parte.

Una volta codificati questi milioni di tweet, i ricercatori hanno potuto fare alcune cose interessanti con loro. Per cominciare, hanno esaminato i cambiamenti nei tweet relativi all'influenza nel tempo e li hanno confrontati con i livelli di influenza, come riportato dal CDC, confermando che i tweet hanno accuratamente catturato la tendenza generale dei tassi di influenza. Tuttavia, a differenza dei dati CDC, è disponibile quasi in tempo reale, piuttosto che una settimana o due dopo il fatto.

Ma sono anche andati più a fondo, osservando le interazioni tra diversi utenti — come rappresentato da due utenti che twittano dalla stessa posizione (la risoluzione GPS è di circa mezzo isolato) entro la stessa ora — per modellare la probabilità che una persona sana si ammalerebbe dopo essere entrato in contatto con qualcuno con l'influenza. Ovviamente, due persone che twittano dallo stesso blocco a distanza di 40 minuti non si sono necessariamente incontrate di persona, ma le probabilità che si siano incontrate sono leggermente superiori a due utenti casuali.

Di conseguenza, quando si osserva un set di dati di interazioni sufficientemente ampio, emerge un'immagine della trasmissione. Hanno scoperto che se un utente sano incontra altri 40 utenti che si dichiarano malati di sintomi influenzali, le loro probabilità di contrarre sintomi influenzali il giorno successivo aumentano da meno dell'uno percento al 20 percento. Con 60 interazioni, quel numero sale al 50 percento.

Il team ha anche esaminato le interazioni su Twitter stesso, isolando coppie di utenti che si susseguono e chiamandole "amicizie". Anche se molte relazioni di Twitter esistono solo sul Web, alcune corrispondono a interazioni nella vita reale e hanno scoperto che un utente chi ha dieci amici che si dichiarano malati hanno il 28 percento in più di probabilità di ammalarsi il giorno successivo. In totale, utilizzando entrambi questi tipi di interazioni, il loro algoritmo è stato in grado di prevedere se una persona sana si sarebbe ammalata (e twittandone) con una precisione del 90 percento.

Siamo ancora nelle prime fasi di questa ricerca e ci sono molte limitazioni: la maggior parte delle persone non usa ancora Twitter (sì, davvero) e anche se lo fanno, potrebbero non twittare di ammalarsi.

Ma se questo tipo di sistema potesse essere ulteriormente sviluppato, è facile immaginare ogni tipo di applicazione. Il tuo smartphone potrebbe avvisarti automaticamente, ad esempio, se avessi trascorso troppo tempo nei luoghi occupati da persone con l'influenza, spingendoti a tornare a casa per smettere di metterti sulla strada dell'infezione. I residenti di un'intera città potrebbero persino essere avvertiti se fosse sull'orlo di un focolaio.

Nonostante i 150 anni che ci separano dall'innovazione della mappatura delle malattie di John Snow, è chiaro che ci sono ancora aspetti delle informazioni sulle malattie che non comprendiamo appieno. Ora, come allora, mappare i dati potrebbe aiutare a dare le risposte.

I tuoi tweet possono prevedere quando avrai l'influenza