IL SOFTWARE CREA UN'IMMAGINE CHE DICE TUTTO

Ogni giorno, gli utenti caricano più di 350 milioni di foto su Facebook. Questo afflusso di immagini ha portato gli analisti a stimare che il 10 percento delle 3, 5 trilioni di foto del mondo siano state scattate nell'ultimo anno. Tutti quei dati che invadono il Web significano che se stai cercando una particolare immagine o oggetto, ad esempio come appare un gatto di tabby arancione, sei inondato positivamente di risultati di ricerca.

Il mese scorso, alcuni ricercatori dell'Università della California, Berkeley, hanno presentato un nuovo software, AverageExplorer, che consentirà agli utenti di vedere l'immagine "media" che rappresenta ciò che stanno cercando. Piuttosto che un'immagine che vale più di mille parole, è un'immagine che vale più di mille o più immagini.

"Quando si accede a una ricerca di immagini di Google, si passerà al setaccio le pagine e le pagine di immagini", spiega Jun-Yan Zhu, studente laureato UC Berkeley e autore principale del documento, presentato alla Conferenza internazionale ed esposizione di quest'anno sulla computer grafica e tecniche interattive a Vancouver. “È enorme e difficile da riassumere; non riesci a capire cosa sta succedendo. "

Per la sua offerta iniziale, Zhu e il suo team hanno raccolto fotografie attraverso ricerche di immagini Flickr, Google e Bing. Il software ha una potenza sufficiente per funzionare su un desktop medio e può eseguire contemporaneamente la compressione di circa 10.000 immagini.

Gli utenti perfezionano le loro ricerche in un paio di modi diversi. Possono disegnare e colorare una forma, simile al disegno in Adobe Photoshop o Illustrator, per rendere più nitido il risultato di un'immagine media. Ad esempio, colorando lo sfondo di un'immagine media della Torre Eiffel si selezionerà automaticamente l'immagine media per estrarre solo gli scatti di notte. In alternativa, è possibile disegnare linee angolate per controllare l'orientamento di una farfalla nel composito.

Ponte dei Sospiri, dal giorno alla notte

Rifinendo i colori in un'immagine AverageExplorer del Ponte dei Sospiri, puoi cambiare la scena dal giorno al tramonto alla notte. (Per gentile concessione di UC Berkeley)

Una volta creata un'immagine media, un processo che può richiedere fino a un minuto, gli utenti possono perfezionare ulteriormente il risultato usando ciò che il team chiama Modalità Explorer. In questa modalità, facendo clic su una determinata parte di un'immagine, ad esempio il naso di un gatto, rivelerai altre opzioni o perfezionamenti comuni per quel punto, forse il naso blu o nero o quelli arrotondati anziché angolari. In un video dimostrativo, ad esempio, il team ha perfezionato un'immagine di bambini in grembo a Babbo Natale selezionando solo le immagini in cui Babbo Natale ha un bambino per braccio.

Laddove il sistema diventerà particolarmente potente, afferma Zhu, è uno strumento per la formazione di algoritmi di visione artificiale, come quelli impiegati da Google Goggles o dalle app Amazon Firefly, che possono identificare ciò a cui punta una videocamera. "Nel campo della visione artificiale, le persone spendono molti soldi per annotare gli oggetti", spiega. “Ora puoi applicare l'annotazione all'immagine media. L'idea è che devi solo lavorare su un'immagine per propagare tutte le immagini in un set di dati. "

Raffinando le modalità di un risultato di ricerca, i ricercatori possono trovare razze specifiche di gatti, tra cui (da sinistra a destra) Ragdoll, Siamese, Maine Coon e Sfinge. (Per gentile concessione di UC Berkeley)

La creazione di opere d'arte è il frutto più basso di AverageExplorer. Il team ha tratto ispirazione da artisti dei nuovi media come Jason Salavon, che ha accuratamente creato a mano fotografie in media. Potrebbe anche essere utilizzato per creare un plug-in di Facebook che consente agli utenti di armeggiare con l'immagine media di se stessi.

Le aspirazioni dei ricercatori sono ancora più ampie e di grande impatto. I sociologi potrebbero utilizzare il sistema per individuare e ricercare le tendenze sociali; ad esempio, un'immagine media potrebbe dimostrare che le spose si trovano più spesso alla destra dello sposo nei ritratti di nozze. AverageExplorer potrebbe anche essere uno strumento utile per gli analisti dei media che cercano di analizzare la copertura televisiva: la postura di Stephen Colbert cambia quando parla di George W. Bush contro Barack Obama?

Consentendo agli utenti di interagire in modo intuitivo con i dati visivi anziché avere difficoltà a inserire la stringa corretta di parole chiave, gli utenti saranno in grado di colmare ciò che il consulente di Zhu e il co-creatore di AverageExplorer, Alexei Efros, definisce il “collo di bottiglia della lingua”.

Il team immagina una suite di strumenti personalizzati progettati per compiti specifici e difficili da articolare. Un'applicazione per lo shopping, ad esempio, consentirebbe a un utente di navigare sul web per un paio di tacchi con il colore esatto, la forma del tallone e l'altezza che sta cercando. Zhu prevede uno strumento che si integra con il flusso di lavoro degli artisti di sketch della polizia, consentendo a un testimone di cercare nelle banche dati facciali caratteristiche che corrispondono a quelle dell'autore e costruiscono un ritratto composito.

Una versione base di AverageExplorer verrà rilasciata in autunno.