https://frosthead.com

L'intelligenza artificiale genera i volti degli umani in base alle loro voci

Una nuova rete neurale sviluppata da ricercatori del Massachusetts Institute of Technology è in grado di costruire un'approssimazione approssimativa del volto di un individuo basata esclusivamente su un frammento del suo discorso, un articolo pubblicato nei rapporti arXiv del server prestampa.

Il team ha addestrato lo strumento di intelligenza artificiale, un algoritmo di apprendimento automatico programmato per "pensare" in modo molto simile al cervello umano, con l'aiuto di milioni di clip online che catturano più di 100.000 altoparlanti diversi. Dubbed Speech2Face, la rete neurale ha utilizzato questo set di dati per determinare i collegamenti tra segnali vocali e caratteristiche facciali specifiche; mentre gli scienziati scrivono nello studio, l'età, il genere, la forma della bocca, la dimensione del labbro, la struttura ossea, la lingua, l'accento, la velocità e la pronuncia sono tutti fattori che influenzano la meccanica del linguaggio.

Secondo Melanie Ehrenkranz di Gizmodo, Speech2Face attinge alle associazioni tra apparenza e linguaggio per generare rendering fotorealistici di individui frontali con espressioni neutre. Sebbene queste immagini siano troppo generiche per essere identificate come una persona specifica, la maggior parte di esse individua con precisione sesso, razza ed età degli oratori.

È interessante notare che Jackie Snow spiega per Fast Company, la nuova ricerca non si basa solo su ricerche precedenti relative a previsioni di età e genere dal linguaggio, ma mette anche in luce i collegamenti tra la voce e le "caratteristiche craniofacciali" come la struttura del naso.

Gli autori aggiungono: "Questo risultato è ottenuto senza informazioni preliminari o l'esistenza di classificatori accurati per questi tipi di sottili caratteristiche geometriche".

Tuttavia, l'algoritmo ha i suoi difetti. Come osserva Mindy Weisberger di Live Science, il modello ha difficoltà ad analizzare le variazioni linguistiche. Quando riproduceva una clip audio di un uomo asiatico che parlava cinese, ad esempio, Speech2Face produceva un volto dell'etnia corretta, ma quando lo stesso individuo veniva registrato parlando inglese, l'intelligenza artificiale generava l'immagine di un uomo bianco.

In altri casi, i maschi acuti, compresi i bambini, sono stati erroneamente identificati come femmine, rivelando il pregiudizio di genere del modello nell'associare le voci acute con gli uomini e quelle acute con le donne. Dato che i dati di formazione derivano in gran parte da video educativi pubblicati su YouTube, i ricercatori sottolineano inoltre che l'algoritmo non riesce a "rappresentare allo stesso modo l'intera popolazione mondiale".

Secondo Jane C. Hu dell'ardesia, la legalità dell'uso dei video di YouTube per la ricerca scientifica è abbastanza chiara. Tali clip sono considerate informazioni disponibili al pubblico; anche se un utente copyright dei propri video, gli scienziati possono includere i materiali nei loro esperimenti in una clausola di "fair use".

Ma l'etica di questa pratica è meno semplice. Parlando con Hu, Nick Sullivan, capo della crittografia di Cloudflare, ha dichiarato di essere sorpreso di vedere una sua foto nello studio del team del MIT, poiché non aveva mai firmato una rinuncia o sentito direttamente dai ricercatori. Anche se Sullivan dice a Hu che sarebbe stato "bello" essere informato della sua inclusione nel database, riconosce che, data la vastità del pool di dati, sarebbe difficile per gli scienziati raggiungere tutti i soggetti rappresentati.

Allo stesso tempo, Sullivan conclude: "Dato che la mia immagine e la mia voce sono state individuate come esempio nel documento Speech2Face, piuttosto che utilizzate come punto dati in uno studio statistico, sarebbe stato educato contattare me per informarmi o chiedi il mio permesso. "

Una potenziale applicazione del mondo reale per Speech2Face sta usando il modello per "associare un volto rappresentativo" alle chiamate telefoniche sulla base della voce di un oratore. Snow aggiunge che la tecnologia di riconoscimento vocale è già utilizzata in numerosi campi, spesso senza la conoscenza o il consenso espresso delle persone. L'anno scorso, Chase ha lanciato un programma "Voice ID" che impara a riconoscere i clienti delle carte di credito che chiamano la banca, mentre le istituzioni correzionali in tutto il paese stanno costruendo database di "impronte vocali" di persone incarcerate.

L'intelligenza artificiale genera i volti degli umani in base alle loro voci