https://frosthead.com

Come l'intelligenza artificiale potrebbe rivoluzionare la ricerca museale archivistica

Quando pensi all'intelligenza artificiale, probabilmente il campo della botanica non è nella tua mente. Quando immagini le impostazioni per la ricerca computazionale all'avanguardia, i musei centenari potrebbero non essere in cima alla lista. Eppure, un articolo appena pubblicato sul Biodiversity Data Journal mostra che alcune delle più eccitanti e portentose innovazioni nell'apprendimento automatico non stanno avvenendo altro che il National Herbarium del National Museum of Natural History di Washington, DC

Il documento, che dimostra che le reti neurali digitali sono in grado di distinguere tra due famiglie simili di piante con tassi di precisione ben oltre il 90 percento, implica ogni sorta di possibilità da far venire l'acquolina in bocca per scienziati e accademici in futuro. Lo studio si basa su software basato su algoritmi di "deep learning", che consentono ai programmi per computer di accumulare esperienza in modo molto simile a quello degli esperti umani, aumentando il loro gioco ogni volta che vengono eseguiti. Presto questa tecnologia potrebbe consentire analisi comparative di milioni di esemplari distinti da tutti gli angoli del globo, una proposta che in precedenza avrebbe richiesto una quantità insostenibile di lavoro umano.

"Questa direzione della ricerca mostra molte promesse", afferma Mark Algee-Hewitt, professore di Stanford, una voce di spicco nel movimento delle discipline umanistiche digitali e assistente direttore di facoltà presso il Center for Spatial and Textual Analysis dell'Università. "Questi metodi hanno la capacità di darci enormi quantità di informazioni su ciò che contengono le raccolte", dice, e "in tal modo rendono accessibili questi dati".

Queste nuove scoperte si basano su anni di lavoro intrapresi presso la Smithsonian Institution per digitalizzare sistematicamente le sue raccolte per l'accesso accademico e al pubblico online e rappresentano un notevole incontro interdisciplinare di menti: botanici, esperti di digitalizzazione e data scientist hanno tutti avuto un ruolo nel portare questi risultati alla luce.

La storia inizia nell'ottobre 2015, quando l'installazione di un apparato di telecamere e nastri trasportatori sotto il Museo di storia naturale ha notevolmente semplificato gli sforzi per digitalizzare la collezione botanica dello Smithsonian. Invece di dover scansionare manualmente tutti i fiori premuti e il ciuffo d'erba nel loro repository, i lavoratori potevano ora mettere in fila intere matrici di campioni, lasciare che la cintura funzionasse con la sua magia e recuperarli e riclassificarli all'estremità della coda. Un equipaggio di tre persone ha supervisionato la cintura sin dal suo debutto e ogni anno vengono sottoposti a circa 750.000 esemplari. Presto l'inventario degli erbari della Smithsonian, forte di cinque milioni di esemplari, sarà interamente online.

Ogni esemplare è etichettato con un documento di identità completo, che fornisce informazioni sulla sua provenienza e dati statistici essenziali. I contenuti di queste carte sono stati trascritti e caricati insieme alle immagini digitali, offrendo una visione completa di ogni elemento della collezione per coloro che hanno la tendenza a cercare.

Nell'archivio botanico digitalizzato dello Smithsonian, le immagini ad alta risoluzione di esemplari sono abbinate a trascrizioni dei pratici tag ID apposti su di essi. Nell'archivio botanico digitalizzato dello Smithsonian, le immagini ad alta risoluzione di esemplari sono abbinate a trascrizioni dei pratici tag ID apposti su di essi. (Museo Nazionale di Storia Naturale)

"Rende la nostra collezione accessibile a chiunque disponga di un computer e di una connessione a Internet", afferma Laurence Dorr, presidente della botanica del museo, "il che è ottimo per rispondere a determinate domande". Anche così, Dorr ha scoperto di non poter scuotere una sensazione di potenziale inutilizzato . Certo, enormi quantità di dati dei campioni erano ora disponibili per la comunità online, ma analizzarli in aggregato è rimasto fantasioso. Cercare particolari campioni e piccole categorie di esemplari era abbastanza facile, ma Dorr si chiese se esistesse un modo per sfruttare i dati per trarre conclusioni su migliaia di esemplari. "Cosa puoi fare con questi dati?" Ricorda chiedendosi. Un uomo di nome Adam Metallo fornì presto una risposta convincente.

Metallo, un ufficiale dell'ufficio del programma di digitalizzazione della Smithsonian, aveva partecipato a una conferenza in cui il gigante della tecnologia NVIDIA, amante dei giocatori di PC di tutto il mondo, stava presentando unità di elaborazione grafica di prossima generazione o GPU. Metallo era lì alla ricerca di modi per migliorare le capacità di rendering digitale dello Smithsonian 3D, ma era una pepita di informazioni in gran parte non correlata che ha attirato la sua attenzione e bloccato con lui. Oltre a generare elementi visivi 3D dinamici e ad alta fedeltà, gli è stato detto che le GPU di NVIDIA erano adatte all'analisi dei big data. In particolare, le GPU potenziate erano proprio ciò che era necessario per il riconoscimento intensivo di modelli digitali; molti algoritmi di machine learning erano stati ottimizzati per la piattaforma NVIDIA.

Metallo fu subito incuriosito. Questa tecnologia di "deep learning", già impiegata in settori di nicchia come lo sviluppo di auto a guida autonoma e la radiologia medica, aveva un grande potenziale per il mondo dei musei - che, come sottolinea Metallo, costituisce "il set di dati più grande e antico a cui ora abbiamo accesso a."

"Che cosa significa per i grandi set di dati che stiamo creando allo Smithsonian attraverso la digitalizzazione?" Voleva sapere Metallo. La sua domanda rispecchiava perfettamente quella di Laurence Dorr e, una volta collegati i due, le scintille iniziarono a volare. "La collezione di botanica è stata una delle più grandi raccolte a cui abbiamo lavorato di recente", ricorda Metallo. Si è suggerita una collaborazione.

Mentre molte forme di machine learning richiedono che i ricercatori contrassegnino i marcatori matematici chiave nelle immagini da analizzare - un processo scrupoloso che equivale a tenere la mano del computer - gli algoritmi di deep learning dei nostri giorni possono insegnare a loro quali marcatori cercare sul lavoro, risparmiando tempo e aprendo la porta a richieste su larga scala. Tuttavia, scrivere un programma di deep learning specifico per Smithsonian e calibrarlo per domande di ricerca botanica discrete è stato un affare complicato: Dorr e Metallo avevano bisogno dell'aiuto dei data scientist per rendere la loro visione una realtà.

I data scientist compilano campioni di addestramento per la rete neurale durante ciò che Paul Frandsen ricorda I data scientist compilano campioni di addestramento per la rete neurale durante quella che Paul Frandsen ricorda come "una fredda giornata di gennaio". (Museo Nazionale di Storia Naturale)

Uno degli specialisti che hanno portato a bordo era lo scienziato di dati di ricerca Smithsonian Paul Frandsen, che ha immediatamente riconosciuto il potenziale nella creazione di una rete neurale basata su GPU NVIDIA da attingere alla collezione di botanica. Per Frandsen, questo progetto ha rappresentato un primo passo chiave lungo un percorso meraviglioso e inesplorato. Presto, dice, "inizieremo a cercare modelli morfologici su scala globale e saremo in grado di rispondere a queste domande veramente grandi che tradizionalmente avrebbero richiesto migliaia o milioni di ore umane guardando attraverso la letteratura e classificare le cose. Saremo in grado di utilizzare algoritmi per aiutarci a trovare quei modelli e imparare di più sul mondo. "

I risultati appena pubblicati sono una straordinaria dimostrazione del concetto. Generato da un team di nove persone guidato dal botanico della ricerca Eric Schuettpelz e dai data scientist Paul Frandsen e Rebecca Dikow, lo studio mira a rispondere a due domande su larga scala relative all'apprendimento automatico e all'erbario. La prima è l'efficacia di una rete neurale addestrata nell'ordinare i campioni macchiati di mercurio da quelli non trattati. Il secondo, il momento saliente del documento, è l'efficacia di una simile rete nel differenziare i membri di due famiglie di piante superficialmente simili, vale a dire le famiglie alleate di felci Lycopodiaceae e Selaginellaceae .

Il primo processo ha richiesto che il team esaminasse in anticipo migliaia di esemplari, rilevando definitivamente quali fossero visibilmente contaminati con mercurio (un residuo di tecniche di conservazione botanica obsolete). Volevano essere sicuri di sapere con certezza al 100 percento quali erano macchiate e quali no, altrimenti non sarebbe stato possibile valutare l'accuratezza del programma. Il team ha raccolto quasi 8.000 immagini di campioni puliti e altri 8.000 di campioni colorati con i quali addestrare e testare il computer. Quando hanno finito di modificare i parametri della rete neurale e hanno ritirato tutta l'assistenza umana, l'algoritmo stava classificando i campioni che non aveva mai visto prima con una precisione del 90 percento. Se gli esemplari più ambigui - ad esempio quelli in cui la colorazione era minima e / o molto debole - venivano eliminati, quella cifra saliva al 94 percento.

Questo risultato implica che il software di deep learning potrebbe presto aiutare i botanici e altri scienziati a evitare di perdere tempo in noiose attività di smistamento. "Il problema non è che un essere umano non è in grado di determinare se un campione è macchiato o meno di mercurio", chiarisce Metallo, ma piuttosto che "è difficile selezionare manualmente e capire dove esiste la contaminazione" e non è ragionevole farlo da un punto di vista della gestione del tempo. Fortunatamente, l'apprendimento automatico potrebbe trasformare al massimo un periodo di tempo al massimo in pochi giorni di analisi automatizzata rapida.

Analizzare gli esemplari uno alla volta richiede molta energia e rende difficile trarre conclusioni su larga scala. Ora, l'analisi dei big data offre ai musei nuovi modi di affrontare le loro collezioni. Analizzare gli esemplari uno alla volta richiede molta energia e rende difficile trarre conclusioni su larga scala. Ora, l'analisi dei big data offre ai musei nuovi modi di affrontare le loro collezioni. (Arnold Arboretum)

La parte di studio sulla discriminazione delle specie è ancora più interessante. I ricercatori hanno addestrato e testato la rete neurale con circa 9.300 moscerini e 9.100 campioni di spikemoss. Come per l'esperimento di colorazione, circa il 70 percento di questi campioni è stato utilizzato per la calibrazione iniziale, il 20 percento è stato utilizzato per il perfezionamento e l'ultimo 10 percento è stato utilizzato per valutare formalmente l'accuratezza. Una volta ottimizzato il codice, il tasso di successo del computer nel distinguere tra le due famiglie era del 96 percento e un 99 percento quasi perfetto se i campioni più difficili fossero stati omessi.

Un giorno, ipotizza Frandsen, programmi come questo potrebbero gestire la categorizzazione preliminare dei campioni nei musei di tutto il mondo. "In nessun modo penso che questi algoritmi faranno di tutto per sostituire i curatori", è veloce notare, "ma invece, penso che possano aiutare i curatori e le persone coinvolte nella sistematica a essere più produttivi, in modo che possano fare molto il loro lavoro più velocemente."

Il successo della rete neurale in questo studio apre anche la strada a test rapidi di ipotesi scientifiche attraverso enormi collezioni. Dorr vede nei risultati del team la possibilità di condurre ampi confronti morfologici di campioni digitalizzati, confronti che potrebbero portare a scoperte scientifiche significative.

Questo non vuol dire che l'apprendimento profondo sarà un proiettile d'argento nella ricerca su tutta la linea. Mark Algee-Hewitt di Stanford sottolinea che "è quasi impossibile ricostruire perché e come una rete neurale prende le sue decisioni" una volta che è stata condizionata; le determinazioni lasciate ai programmi per computer dovrebbero essere sempre semplici e verificabili in natura se devono essere attendibili.

"Ovviamente", dice Dorr, un programma informatico autonomo "non testerà relazioni genetiche, cose del genere", almeno in qualsiasi momento nel prossimo futuro. “Ma possiamo iniziare a conoscere la distribuzione delle caratteristiche per regione geografica o per unità tassonomica. E sarà davvero potente. "

Più di ogni altra cosa, questa ricerca è un punto di partenza. È chiaro ora che la tecnologia di apprendimento profondo ha grandi promesse per scienziati e altri accademici di tutto il mondo, nonché per il pubblico curioso per il quale producono conoscenza. Ciò che rimane è un rigoroso lavoro di follow-up.

"Questo è un piccolo passo", afferma Frandsen, "ma è un passo che ci dice davvero che queste tecniche possono funzionare su esemplari di museo digitalizzati. Siamo entusiasti di istituire molti altri progetti nei prossimi mesi, per provare a testarne un po 'di più ”.

Come l'intelligenza artificiale potrebbe rivoluzionare la ricerca museale archivistica