https://frosthead.com

Come Margaret Dayhoff ha portato l'informatica moderna alla biologia

Nel 1984, la National Biomedical Research Foundation ha lanciato un database online gratuito contenente oltre 283.000 sequenze di proteine. Oggi la risorsa di informazioni sulle proteine ​​consente agli scienziati di tutto il mondo di prendere una proteina sconosciuta, confrontarla con le migliaia di proteine ​​conosciute nel database e determinare i modi in cui è simile e diverso. Da questi dati possono dedurre in modo rapido e preciso la storia evolutiva di una proteina e la sua relazione con varie forme di vita.

Le umili origini di questo enorme database online iniziano molto prima di Internet. Tutto ebbe inizio con l' Atlante delle sequenze e delle strutture proteiche, un libro stampato del 1965 contenente le 65 sequenze proteiche allora conosciute, compilato da una donna di nome Margaret Dayhoff. Per creare il suo Atlante, Dayhoff ha applicato tecnologie informatiche all'avanguardia per trovare soluzioni a domande biologiche, aiutando a inaugurare la nascita di un nuovo campo che ora chiamiamo bioinformatica. Originariamente chimico, Dayhoff ha sfruttato le nuove tecnologie in evoluzione dell'era informatica post-Seconda Guerra Mondiale per creare strumenti pionieristici che chimici, biologi e astronomi potrebbero utilizzare nello studio interdisciplinare sulle origini della vita sulla Terra.

Dayhoff (allora Margaret Oakley) nacque a Filadelfia l'11 marzo 1925 da Ruth Clark, insegnante di matematica al liceo, e Kenneth Oakley, un piccolo imprenditore. All'età di dieci anni, la sua famiglia si trasferì a New York City. Lì, ha frequentato le scuole pubbliche, diventando infine il valedictorian di Bayside High nel 1942. Ha frequentato una borsa di studio al Washington Square College della New York University, laureandosi con lode in matematica solo tre anni dopo, nel 1945.

Nello stesso anno, la Dayhoff entrò alla Columbia University per conseguire il dottorato in chimica quantistica sotto la guida del noto chimico e ricercatore delle operazioni della Seconda Guerra Mondiale George Kimball. La sua accettazione era una rarità per il momento. Dopo la seconda guerra mondiale, un numero maggiore di uomini entrò nelle scienze e la chimica divenne ancora più dominata dagli uomini rispetto al decennio precedente, con solo il cinque percento dei dottorati in chimica che andavano alle donne, in calo dell'8 percento.

Durante il periodo di Dayhoff all'università, la Columbia era un focolaio per la tecnologia informatica. Vantò alcuni dei primi laboratori di informatica negli Stati Uniti e nel 1945 divenne sede dell'IBM Watson Scientific Laboratory guidato dall'astronomo WJ Eckert. Il laboratorio Watson era stato per la prima volta un centro di calcolo per gli alleati negli ultimi mesi della seconda guerra mondiale. Dopo la guerra, divenne un sito per lo sviluppo di alcuni dei primi supercomputer, incluso il Selective Sequence Electronic Calculator (SSEC), che Eckert in seguito utilizzò per calcolare le orbite lunari per le missioni Apollo.

Con questa tecnologia a portata di mano, Dayhoff ha combinato il suo interesse per la chimica con l'informatica tramite macchine a schede perforate, essenzialmente computer digitali precoci. Le macchine hanno permesso a Dayhoff di automatizzare i suoi calcoli, memorizzando un algoritmo su un set di carte e dati su un altro. Usando la macchina, è stata in grado di elaborare i calcoli in modo molto più rapido e preciso che a mano.

Il particolare argomento di interesse di Dayhoff erano i composti organici policiclici, che sono molecole costituite da tre o più atomi uniti in un anello vicino. Ha usato le macchine a schede perforate per eseguire un gran numero di calcoli sulle energie di risonanza delle molecole (la differenza tra l'energia potenziale di una molecola di uno stato specifico e uno stato medio) per determinare la probabilità di legame molecolare e le distanze di legame.

Dayhoff si è laureata con il dottorato in chimica quantistica in soli tre anni. La ricerca che intraprese come studentessa laureata fu pubblicata, con Kimball come coautore, nel 1949 nel Journal of Chemical Physics con il semplice titolo Punched Card Calculation of Resonance Energies.

Sempre nel 1948, Dayhoff sposò Edward Dayhoff, uno studente di fisica sperimentale che aveva incontrato alla Columbia. Nel 1952, la coppia si trasferì a Washington, DC, dove Edward prese un incarico al National Bureau of Standards e Dayhoff diede alla luce la sua prima delle due figlie, Ruth. Dayhoff presto abbandonò la ricerca per diventare una mamma casalinga per Ruth e sua figlia minore Judith, salvo una posizione post dottorato di due anni all'Università del Maryland.

Quando tornò alla ricerca e iniziò a richiedere sovvenzioni per finanziare il suo lavoro nel 1962, ebbe una sorpresa. Il National Institutes of Health ha respinto una domanda di sovvenzione che elencava Dayhoff come investigatore principale, con la spiegazione che "[Dayhoff] è stato per un po 'di tempo molto intimo ... con questa zona complicata e in rapido progresso", come scrive lo storico Bruno Strasser il suo prossimo libro Collecting Experiments: Making Big Data Biology . Questo tipo di salita per le donne che si sono prese un periodo di riposo per crescere i figli è solo uno dei modi in cui le istituzioni scientifiche hanno ostacolato - e continuano a ostacolare - il progresso delle donne.

Nonostante la mancanza di supporto del NIH, Dayhoff stava per entrare nel decennio più consequenziale della sua carriera. Nel 1960, accettò il fatidico invito di Robert Ledley, un pionieristico biofisico che incontrò attraverso suo marito, a unirsi a lui alla National Biomedical Research Foundation di Silver Spring, nel Maryland. Ledley sapeva che le capacità informatiche di Dayhoff sarebbero state cruciali per l'obiettivo della fondazione di combinare i campi dell'informatica, della biologia e della medicina. Avrebbe servito come direttore associato per 21 anni.

Una volta nel Maryland, Dayhoff ebbe libero sfogo da utilizzare per il nuovissimo mainframe IBM 7090 della Georgetown University. Il sistema IBM è stato progettato per la gestione di applicazioni complesse, con velocità di elaborazione sei volte più veloci rispetto ai modelli precedenti. Questa velocità era stata raggiunta sostituendo la tecnologia del tubo a vuoto più lenta e voluminosa con transistor più veloci ed efficienti (i componenti che producono 1 e 0 di computer). Usando il mainframe, Dayhoff e Ledley hanno iniziato a cercare e confrontare sequenze di peptidi con programmi FORTRAN che si erano scritti nel tentativo di assemblare sequenze parziali in una proteina completa.

IBM 7090 Console operatore IBM 7090 presso il NASA Ames Research Center nel 1961, con due banchi di unità nastro magnetico IBM 729. (NASA)

L'impegno di Dayhoff e Ledley nell'applicazione dell'analisi computerizzata alla biologia e alla chimica era insolito. "La cultura dell'analisi statistica, per non parlare del calcolo digitale, era completamente estranea alla maggior parte dei [biochimici]", spiega Strasser in un'intervista a Smithsonian.com . "Alcuni si sono persino vantati di non essere" teorici ", il che è il modo in cui hanno compreso l'analisi dei dati utilizzando modelli matematici."

Una disciplina scientifica in cui l'abilità informatica di Dayhoff era più apprezzata, tuttavia, era l'astronomia. Questo interesse per l'informatica fu in parte dovuto a WJ Eckhart, che nel 1940 aveva usato macchine IBM per schede perforate per prevedere le orbite planetarie. E negli anni '60, l'interesse americano per l'esplorazione dello spazio era in pieno svolgimento, il che significava finanziamenti per la NASA. All'università del Maryland, Dayhoff incontrò lo spettroscopista Ellis Lippincott, che la portò a una collaborazione di sei anni con Carl Sagan ad Harvard nel 1961. I tre svilupparono modelli termodinamici della composizione chimica della materia e Dayhoff ideò un programma per computer che potrebbe calcolare le concentrazioni di equilibrio dei gas nelle atmosfere planetarie.

Con il programma di Dayhoff, lei, Lippincott e Sagan sono stati in grado di scegliere un elemento da analizzare, permettendo loro di indagare su diverse composizioni atmosferiche. Alla fine, hanno sviluppato modelli atmosferici per Venere, Giove, Marte e persino un'atmosfera primordiale della Terra.

Durante l'esplorazione dei cieli, Dayhoff ha anche sollevato una domanda che i ricercatori stavano esplorando da almeno gli anni '50: qual è la funzione delle proteine? Il sequenziamento delle proteine ​​era un mezzo per ottenere la risposta, ma il sequenziamento delle singole proteine ​​era altamente inefficiente. Dayhoff e Ledley hanno adottato un approccio diverso. Invece di analizzare le proteine ​​in modo isolato, hanno confrontato le proteine ​​derivate da diverse specie animali e vegetali. "Confrontando le sequenze della stessa proteina in specie diverse, si potrebbe osservare quali parti della sequenza erano sempre identiche in tutte le specie, una buona indicazione che questa parte della sequenza era cruciale per il bene della proteina", afferma Strasser.

Dayhoff esplorò più a fondo, guardando alla storia condivisa delle proteine. Ha analizzato non solo le parti identiche tra le specie, ma anche le loro variazioni. "Hanno preso queste differenze come una misura delle distanze evolutive tra le specie, che ha permesso loro di ricostruire alberi filogenetici", spiega Strasser.

Dayhoff, sempre pronto a sfruttare la potenza della nuova tecnologia, ha sviluppato metodi computerizzati per determinare le sequenze proteiche. Ha eseguito un'analisi computerizzata delle proteine ​​in un'ampia varietà di specie, dal fungo candida alla balena. Quindi ha usato le loro differenze per determinare le loro relazioni ancestrali. Nel 1966, con l'aiuto di Richard Eck, Dayhoff creò la prima ricostruzione di un albero filogenetico.

In un articolo di Scientific American del 1969, "Computer Analysis of Protein Evolution", Dayhoff ha presentato al pubblico uno di questi alberi insieme alla sua ricerca usando i computer per il sequenziamento delle proteine. "Ogni sequenza proteica stabilita, ogni meccanismo evolutivo illuminato, ogni grande innovazione nella storia filogenetica che viene rivelata migliorerà la nostra comprensione della storia della vita", ha scritto. Stava cercando di mostrare alla comunità delle scienze della vita il potenziale dei modelli computerizzati.

Il suo prossimo obiettivo era quello di raccogliere tutte le proteine ​​conosciute in un posto dove i ricercatori potevano trovare sequenze e confrontarle con altre. A differenza di oggi, quando è facile richiamare fonti su un database elettronico con una semplice parola chiave, Dayhoff ha dovuto perlustrare le riviste fisiche per trovare le proteine ​​che stava cercando. In molti casi, ciò significava controllare il lavoro del collega ricercatore per errori. Anche con l'aiuto di un computer, il lavoro di raccolta e catalogazione delle sequenze ha richiesto copiose quantità di tempo e un attento occhio scientifico.

Non tutti vedevano valore in quello che stava facendo. Per altri ricercatori, il lavoro di Dayhoff assomigliava al lavoro di raccolta e catalogazione della storia naturale del 19 ° secolo piuttosto che al lavoro sperimentale dello scienziato del 20 ° secolo. "Raccogliere, confrontare e classificare le cose della natura sembrava vecchio stile a molti biologi sperimentali nella seconda metà del 20 ° secolo", afferma Stasser. Si riferisce a Dayhoff come a un "estraneo". "Ha contribuito a un campo che non esisteva e quindi non aveva un riconoscimento professionale", dice.

Nel 1965, Dayhoff pubblicò per la prima volta la sua collezione di 65 proteine ​​conosciute nell'Atlante della sequenza e struttura delle proteine, una versione stampata del suo database. Alla fine i dati sono passati al nastro magnetico e ora vivono online dove i ricercatori continuano a utilizzare i suoi dati per trovare altre migliaia di proteine. Altri database biomedici si sono uniti alla mischia, tra cui la Protein Data Bank, una raccolta collaborativa di proteine ​​e acidi nucleici lanciata nel 1971 e GenBank, il database delle sequenze genetiche lanciato nel 1982. Dayhoff ha avviato una rivoluzione scientifica.

"Oggi, ogni singola pubblicazione in biologia sperimentale contiene una combinazione di nuovi dati sperimentali e inferenze tratte da confronti con altri dati resi disponibili in un database pubblico, un approccio che Dayhoff ha iniziato mezzo secolo fa", afferma Strasser.

Con la crescita della bioinformatica, i compiti di raccolta e calcolo ricadono in gran parte sulle donne. Le collaboratrici di Dayhoff sull'Atlante erano tutte donne tranne Ledley. Come le donne "computer" della NASA negli anni '60 e le donne che infrangono il codice della Seconda Guerra Mondiale, queste donne furono presto spinte ai margini della pratica scientifica. Riferendosi alle "ragazze ENIAC" che hanno programmato il primo computer digitale per scopi generici, lo storico dell'informatica Jennifer Light scrive che "è proprio entro i confini di classificazioni occupazionali di così basso livello che le donne sono state impegnate in un lavoro senza precedenti".

Nel suo disegno biografico di Dayhoff, Lois T. Hunt, che lavorava con lei sull'Atlante, scrisse che Dayhoff credeva che la sua indagine sull'atmosfera primordiale della Terra potesse darle "i composti necessari per la formazione della vita". Questo, forse anche più di informatica, è ciò che lega insieme le parti disparate della ricerca scientifica di Dayhoff. Dalla minuscola proteina alla vasta atmosfera, Dayhoff stava cercando i segreti dell'emergenza della vita su questo pianeta. Sebbene non le abbia sbloccate tutte, ha dato alla scienza moderna gli strumenti e i metodi per continuare la ricerca.

Come Margaret Dayhoff ha portato l'informatica moderna alla biologia