Gli algoritmi di Facebook possono scegliere il tuo volto da una folla (o almeno provare a farlo), ma non riescono ancora a capire se stai posando in un ritratto di famiglia o bevendo con amici - non può dirti come stai interagendo con gli altri . In futuro, tuttavia, i computer potrebbero essere in grado di fare proprio questo. Ora i ricercatori hanno proposto un modo per capire come i computer intelligenti sono in identificazione visiva. Chiamano il loro test un test visivo di Turing, dopo il test dello scienziato informatico Alan Turing sulla capacità di un computer di mostrare un'intelligenza simile a quella umana.
La percezione popolare del test è che viene utilizzato per distinguere gli umani dai computer e una versione viene utilizzata in tal senso, quando si esegue un CAPTCHA per iscriversi a una nuova e-mail. Ma i ricercatori di intelligenza artificiale pensano davvero al test come a un modo per misurare quanto è avanzata l'intelligenza informatica avanzata.
"Negli ultimi anni ci sono stati notevoli progressi nella visione artificiale", afferma Stuart Geman, professore di matematica alla Brown University e uno dei ricercatori che propone la nuova valutazione. "Abbiamo ritenuto che potrebbe essere il momento di alzare il livello in termini di come questi sistemi sono valutati e benchmark."
Invece di riconoscere semplicemente che un'immagine mostra due persone, il test verifica se i computer riescono a capire che le due persone stanno conversando o addirittura discutendo. Attualmente, i ricercatori utilizzano set di dati disponibili al pubblico per testare i loro programmi: il MIT ha LableMe, che utilizza il crowdsourcing per identificare "auto", "albero" e "costruzione" nelle immagini, ad esempio. Per migliorare questo aspetto e offrire una sfida maggiore, i ricercatori della Brown hanno ideato un framework per un test di Turing visivo standardizzato.
Lee Gomes per i rapporti IEEE Spectrum :
Il loro metodo proposto richiede ai progettisti di test umani di sviluppare un elenco di alcuni attributi che potrebbe avere un'immagine, ad esempio se una scena di strada contiene persone o se le persone portano qualcosa o parlano tra loro. Le fotografie verrebbero innanzitutto valutate a mano dagli umani su questi criteri; a un sistema di visione artificiale sarebbe quindi mostrata la stessa immagine, senza le "risposte", per determinare se fosse in grado di individuare ciò che gli umani avevano notato.
Inizialmente, le domande sarebbero rudimentali, chiedendo se c'è una persona in una regione designata della foto, per esempio. Ma le domande aumenterebbero in complessità man mano che i programmi diventavano più sofisticati; una domanda più complicata potrebbe coinvolgere la natura di un'interazione tra persone diverse nella foto.
Il team ha descritto il test in Atti della National Academy of Sciences . A partire da ora, il tedesco afferma che nessun sistema informatico potrebbe superare le semplici versioni del nuovo test. Ma lo faranno in futuro. Dal momento che ci sono molti possibili attributi per ogni foto, i ricercatori dovrebbero trovare modi innovativi per i loro computer per imparare a valutare le foto.
"Come ricercatori, tendiamo a" insegnare alla prova ", afferma Geman nella dichiarazione. “Se ci sono alcuni concorsi a cui tutti partecipano e quelli sono le misure del successo, allora è su questo che ci concentriamo. Quindi potrebbe essere saggio cambiare il test, per renderlo appena fuori dalla portata degli attuali sistemi di visione. "