"MONA LISA" PRENDE VITA IN UN "RITRATTO VIVENTE" GENERATO DAL COMPUTER

La serie di Harry Potter ha abituato il mondo all'idea di ritratti viventi con i suoi dipinti parlanti e le fotografie in movimento. Ma la scorsa settimana, quando un "ritratto vivente" generato dall'intelligenza artificiale della Gioconda di Leonardo da Vinci ha iniziato a girare sul web, molte persone sono rimaste sorprese quando il famoso ritratto mosse le sue labbra e si guardò attorno.

Il ritratto animato di Lisa Gherardini è stato uno dei numerosi nuovi "modelli a testa parlante", più comunemente noti come "deepfakes", creati da ricercatori del Centro di intelligenza artificiale di Samsung a Mosca e dell'Istituto di scienza e tecnologia Skolkovo. Usando solo alcuni frame di riferimento o persino una singola immagine, i ricercatori hanno anche creato profondi personaggi famosi come Oprah, dato vita a singole istantanee di Marilyn Monroe e Albert Einstein e creato nuove espressioni per immagini famose come La ragazza con l'orecchino di perla di Vermeer.

I ricercatori hanno pubblicato il loro metodo, che chiamano "pochi shot learning", su YouTube e in un documento che non è stato ancora sottoposto a revisione paritaria sul repository prestampa arXiv.org. Mentre i dettagli diventano piuttosto tecnici, Mindy Weisberger di LiveScience riferisce che per produrre i ritratti viventi un tipo di intelligenza artificiale chiamata rete neurale convoluzionale si allena analizzando immagini di riferimento. Quindi applica i movimenti del viso da una serie di cornici a un'immagine statica, come la Gioconda . Più angoli e immagini di riferimento ha, migliore diventa il ritratto vivente. Secondo il documento, l'intelligenza artificiale potrebbe produrre un "realismo perfetto" (misurato dalla capacità dell'uomo di discernere quale dei tre insiemi di immagini erano deepfake) usando solo 32 immagini di riferimento.

La Gioconda, ovviamente, è solo un'immagine, quindi i tre "ritratti viventi" del capolavoro di Leonardo sono un po 'inquietanti. Per le brevi animazioni, la rete neurale ha osservato tre diversi video di allenamento e le tre versioni di Mona Lisa basate su quei frame sembrano avere personalità diverse. Se Leonardo avesse dipinto il suo famoso modello da diverse angolazioni, il sistema avrebbe potuto produrre un ritratto vivente ancora più realistico.

Mentre la Gioconda animata è divertente, l'ascesa dei deepfakes ha suscitato preoccupazione per il fatto che le somiglianze generate dal computer potrebbero essere utilizzate per diffamare le persone, alimentare le tensioni razziali o politiche e erodere ulteriormente la fiducia nei media online. "[T] hey minano la nostra fiducia in tutti i video, compresi quelli che sono autentici", scrive John Villasenor presso The Brookings Institution. "La verità stessa diventa inafferrabile, perché non possiamo più essere sicuri di ciò che è reale e di ciò che non lo è."

Mentre l'intelligenza artificiale viene utilizzata per creare deepfakes, Villasenor afferma che, almeno per ora, può anche essere utilizzata per identificare i deepfake cercando incoerenze che non sono evidenti all'occhio umano.

Tim Hwang, direttore della Harvard-MIT Ethics and Governance of AI Initiative, dice a Gregory Barber di Wired che non siamo al punto in cui i cattivi attori possono ancora creare sofisticati deepfake sui loro laptop personali. "Nulla mi suggerisce che utilizzerai chiavi in mano questo per generare deepfakes a casa", dice. "Non nel breve, medio o anche nel lungo termine."

Questo perché l'utilizzo del nuovo sistema Samsung è costoso e richiede competenza. Ma l'articolo di Barber sottolinea che non ci vuole un video fotorealistico super sofisticato realizzato da una rete neurale per ingannare le persone. Proprio la settimana scorsa, un video manipolato che era stato rallentato per far sembrare ubriaca l'ubriacatrice Nancy Pelosi sui social network.

Alla fine, tuttavia, la tecnologia sarà abbastanza buona che gli attori cattivi saranno in grado di produrre falsi così convincenti da non poter essere rilevati. Quando quel giorno arriverà, Hwang dice a Wired, le persone dovranno fare affidamento sul controllo dei fatti e sugli indizi contestuali per capire cosa è reale e cosa è falso. Ad esempio, se il mezzo sorriso a labbra strette di Mona Lisa diventa un sorriso a trentadue denti e cerca di venderti un dentifricio sbiancante, è sicuramente un falso.