https://frosthead.com

Un motore di ricerca che abbina i tuoi disegni alle fotografie non è troppo lontano

Alcune settimane fa, ero in un centro commerciale quando ho notato una donna che trasportava una grande borsa con una cinghia simile a una corda. Dato che sono sul mercato per una nuova borsa, ho pensato di chiederle dove l'aveva presa. Ma prima che potessi fare la mia mossa, è scomparsa dietro un angolo. Quando sono tornato a casa, ho provato a cercare su Google la borsa. Ma non sono una fashionista e ho scoperto che non avevo il vocabolario per descrivere ciò che avevo visto. "Borsa in pelle con cinturino con coulisse" non era corretta. Né era "borsa con manico in corda" o "borsa con tracolla". Alla fine, ho rinunciato.

Ora, una nuova tecnologia mira ad aiutare le persone a cercare cose che non possono necessariamente descrivere a parole.

James Hays, un informatico del Georgia Institute of Technology, ha creato un programma per computer in grado di abbinare immagini disegnate a mano a fotografie. Ciò potrebbe infine portare a un programma in grado di combinare i servizi di ricerca di immagini su Internet, come Google Immagini, e di trovare fotografie che corrispondano esattamente ai disegni degli utenti.

"L'obiettivo è essere in grado di mettere in relazione o abbinare foto e schizzi in entrambe le direzioni, proprio come una lattina umana", afferma Hays. “Un essere umano può vedere uno schizzo mal disegnato e capire a quale foto sembra corrispondere. Vogliamo avere le stesse capacità computazionalmente. ”

Per creare il programma, Hays ha assunto quasi 700 lavoratori da Amazon Mechanical Turk, un mercato di crowdsourcing che abbina i lavoratori alle persone che necessitano di compiti. Il suo team ha mostrato agli operai foto di oggetti e animali ordinari, come scoiattoli, teiere e banane, permettendo loro di guardare l'immagine per due secondi. L'operatore quindi disegna l'oggetto dalla memoria. Alla fine il team ha raccolto oltre 75.000 schizzi di 12.500 oggetti. Hanno chiamato questo "database impreciso".

Il programma ha quindi analizzato gli schizzi e li ha abbinati alla fotografia a cui somigliavano più da vicino. La tecnologia ha identificato la foto corretta il 37 percento delle volte. Gli umani, a confronto, avevano ragione circa il 54 percento delle volte. Mentre il 37 percento potrebbe non sembrare impressionante, in realtà è un bel salto per i computer.

"Gli esseri umani sono già così sorprendentemente bravi nella visione, riconosciamo le immagini senza sforzo", afferma Hays. "In realtà è sorprendentemente difficile dal punto di vista computazionale."

Una delle principali sfide nel migliorare il programma è che la maggior parte delle persone sono artisti piuttosto schifosi. Come Hays e il suo team hanno scritto in un articolo sull'argomento, “Forme e scale sono distorte. Le parti degli oggetti sono caricaturate (grandi orecchie su un elefante), antropomorfizzate (bocca sorridente su un ragno) o semplificate (arti a bastoncino). ”

Storicamente, la ricerca per far riconoscere ai computer i disegni si è concentrata su cose come la distribuzione delle linee in un disegno, la direzione in cui le linee vanno o dove sono i confini del disegno. Ma poiché gli umani disegnano solo ciò che è rilevante per gli umani (gli occhi, ad esempio, sono sempre inclusi negli schizzi, anche se sono relativamente piccoli), è importante che un computer "impari" come gli schizzi tendono ad essere simili e come tendono a essere diverso dalle fotografie. Per questo, il programma utilizza due reti separate, una che valuta gli schizzi, una che valuta le fotografie. Mediante analisi costante di un ampio set di dati, il programma può continuamente "apprendere".

Hays e il suo team hanno in programma di continuare a migliorare il programma aggiungendo dati. I progressi nell'apprendimento del computer dovrebbero anche aiutare a migliorare le percentuali di corrispondenza. A partire da ora, il programma ha un tasso di corrispondenza abbastanza elevato quando si confrontano gli schizzi con i database di foto su Internet, incluso Flickr, anche se è difficile da quantificare, dice Hays.

Oltre alla ricerca di immagini di borsette di cui ho così tanto bisogno, il programma ha una serie di usi potenziali meno frivoli. La polizia potrebbe scansionare schizzi sospetti e confrontarli con un database di fotografie criminali. Il programma potrebbe essere utilizzato da persone che parlano e scrivono in qualsiasi lingua o non riescono affatto a scrivere.

"Un obiettivo della comprensione degli schizzi è che sono un linguaggio un po 'universale", afferma Hays. “Non è legato a una particolare lingua scritta e non è nemmeno legato all'alfabetizzazione. [Un programma come questo potrebbe portare] l'accesso alle informazioni senza linguaggio scritto. "

Il programma potrebbe anche essere usato artisticamente, per creare scene fotorealistiche da schizzi. Hai mai immaginato di vivere in un castello sulla luna? Disegnalo e il programma potrebbe un giorno creare un'immagine fotografica per te ricucendo pezzi di altre immagini.

Le informazioni raccolte da Hays e dal suo team potrebbero anche aiutare ad affrontare alcune domande di neuroscienze e psicologia, dice Hays.

"Queste coppie foto-schizzo stanno dicendo qualcosa sulla percezione umana, su ciò che riteniamo saliente, su quali parti delle immagini catturano la nostra attenzione", afferma Hays. “In un certo senso, questo database lo codifica abbastanza bene. Potrebbe esserci qualcosa da prendere in giro, se vuoi dire qualcosa sugli umani stessi ”.

Un motore di ricerca che abbina i tuoi disegni alle fotografie non è troppo lontano