https://frosthead.com

I big data sono diventati sempre più grandi quando IBM Watson incontra l'Enciclopedia della vita

Dopo 2000 anni, l'ultima enciclopedia della vita è alla cuspide di una nuova era basata sui dati. Una sovvenzione della National Science Foundation è stata assegnata a The Encyclopedia of Life (EOL), IBM e Georgia Institute of Technology. La sovvenzione consentirà di elaborare enormi quantità di dati e di indicizzarli in modo incrociato in modo da consentire una scienza innovativa.

Contenuto relativo

  • Il nuovo sistema di riserva marina proposto offre Rosy Outlook sia per l'aragosta che per il pescatore di aragosta

Nell'anno 77 d.C., Plinio il Vecchio iniziò a scrivere la prima enciclopedia al mondo, Storia naturale. Comprendeva di tutto, dall'astronomia alla botanica, alla zoologia, all'antropologia e altro ancora. Plinio tentò di mettere tutto ciò che poteva raccogliere personalmente sul mondo naturale in un'unica opera scritta. Negli ultimi 2000 anni, una lunga serie di scienziati ispirati a Plinio ha perseguito la stessa visione.

Plinio ha incluso 20.000 argomenti in 36 volumi, ma ha incontrato i limiti di ciò che una singola persona può scoprire, registrare ed elaborare in una durata di vita umana. Morì durante l'eruzione del Vesuvio prima che potesse finire un'ultima modifica della sua opera magnum. Anche nella sua epoca, per una persona non era possibile leggere tutti i libri, imparare tutto e spiegare tutto al mondo.

Come scienziati, redattori e bibliotecari più tardi hanno scoperto in un mondo che aggiunge più conoscenza scritta ogni anno che passa, anche se è possibile archiviare tutti i libri e le ricerche del mondo in un edificio, è una sfida rendere disponibili tutte le informazioni pertinenti a ricercatori durante i limiti delle loro brevi vite umane.

EOL potrebbe essere in grado di cambiarlo applicando un potere computazionale all'avanguardia a diverse raccolte di dati biologici. Il progetto è una raccolta digitale gratuita e aperta di fatti, articoli e contenuti multimediali sulla biodiversità, uno dei più grandi al mondo. Presieduto alla Smithsonian Institution e con i suoi 357 partner e fornitori di contenuti tra cui l'Università di Harvard e la Nuova Biblioteca di Alessandria in Egitto, EOL è cresciuto da 30.000 pagine quando è stato lanciato nel 2008 a oltre 2 milioni, con 1, 3 milioni di pagine di testo, mappe, video, audio e fotografie e supporta 20 lingue.

"Sono venuto a Smithsonian nel 2010 dall'industria del software", afferma Bob Corrigan, direttore dell'EOL. “Una delle scoperte che ho fatto venendo qui è che mentre l'IT è ovunque, non è penetrato nel mondo dei musei nello stesso modo in cui è penetrato nel mondo commerciale. In biologia, in particolare, i dati più importanti sono stati sepolti nei libri di testo e nei fogli di calcolo ".

In che modo i dati biologici in varie forme possono essere combinati e estratti per nuove intuizioni sulla vita sulla Terra? E se i dati su, diciamo, la biodiversità delle farfalle in Africa per un decennio fossero combinati con i dati sulle pratiche agricole e sulle precipitazioni? Si potrebbe imparare qualcosa di nuovo? Ci vuole qualcosa di più grande di un cervello umano per farlo. Qualcosa come il supercomputer Watson di IBM.

"IBM sta contribuendo allo sforzo e all'accesso a una versione [di Watson] che non è pubblicamente disponibile", afferma Jennifer Hammock, direttore del programma di EOL. "Avranno anche persone che ci lavorano. IBM lo sta facendo come un contributo in natura. "

Watson è un supercomputer che non si limita a sgretolare i numeri in grandi volumi. Utilizza l'intelligenza artificiale per consentire agli utenti di porre domande in un linguaggio semplice.

"Direi dal punto di vista dell'utente, significa che il database è qualcosa su cui puoi camminare e porre una domanda come se fosse un essere umano", afferma Hammock. "Tipo, puoi dirmi se questa farfalla viola si presenta in Africa?"

"Rispondere a una semplice domanda in qualsiasi lingua presuppone l'esistenza di molta conoscenza dietro le quinte", afferma Corrigan. “Anche [la parola] viola, si presume che sappiamo cos'è il viola. O una farfalla, [il computer] deve capire la differenza tra una farfalla e una falena. Inoltre, gli stessi set di dati hanno modi diversi di pensare a questi diversi termini. Tutti questi dati sono stati difficili da estrarre senza una pietra dei termini Rosetta. E questo fa parte della magia di ciò che l'EOL sta facendo. "

Una domanda scientifica che la partnership tra EOL, IBM e Georgia Tech spera di risolvere è il paradosso del plancton.

Secondo Hammock, gli scienziati che lavorano con simulazioni al computer “cercano di modellare ciò che accade nell'oceano dicendo che il sole splende dentro e le alghe crescono. . . ha una sorta di approssimazione approssimativa ma non riescono a rendere [il modello informatico dell'ecosistema] stabile. Vanno per un po 'e poi si schiantano. Perché sono troppo semplici. Sperano che se possono mostrare un po 'più di diversità nella loro biosfera modellata, diventeranno più stabili. . . .il paradosso: come esiste la biosfera oceanica? Perché non va in crash? "

"Le persone sono sedute sui dati", afferma Corrigan. “Esistono incredibili riserve di misurazioni della biodiversità in tutto il pianeta. Ricevo molte telefonate da persone che siedono su questi dati e vogliono aiuto per inserirli in un contesto più ampio. È importante perché siamo in corsa per studiare questo pianeta e imparare come il nostro sviluppo sta stressando le nostre risorse molto limitate. . . Lo Smithsonian può svolgere un ruolo nell'aumento della conoscenza da tutte queste fonti ed essere un vero potere per diffonderla. "

Un quarto della sovvenzione da 1 milione di dollari verrà assegnato a Smithsonian per la sua quota di lavoro, ma EOL include molti altri giocatori. Alcuni sviluppatori sono in Egitto; una squadra educativa è basata su Harvard; e l'unità di lingua spagnola è a Città del Messico.

Tutti i dati di EOL continueranno a essere di dominio pubblico o concessi in licenza in base a Creative Commons. La ricerca e i dati sono destinati ad essere accessibili al pubblico e non nascosti dietro un paywall.

"È un sogno molto antico", afferma Hammock. “Un essere umano probabilmente non può imparare tutto. È difficile mettere tutto in un posto dove può essere consciamente controllato contro se stesso. Ma ora abbiamo i computer. "

Plinio sarebbe o molto contento o molto geloso.

I big data sono diventati sempre più grandi quando IBM Watson incontra l'Enciclopedia della vita