Approfondimento: domande e risposte sul machine learning

Per molti il machine learning è qualcosa di futuristico. Tuttavia, recentemente si sta manifestando sempre più spesso nella vita reale: che sia tramite un computer di Google che gioca una fantastica partita a Go o tramite Inbox by Gmail che crea risposte automatiche. È tutto entusiasmante, ma in molti si chiedono ancora in cosa consista il machine learning; o perché sia importante; o perché individuare un cane in una foto non è così facile come dirlo. Per questo motivo abbiamo incontrato Maya Gupta, scienziata ricercatrice di Google che si occupa del machine learning, per approfondire il tema.

Iniziamo dalle basi. Che cos'è esattamente il machine learning?

Il machine learning, anche chiamato apprendimento automatico, prende in considerazione una quantità enorme di esempi, estrae degli schemi per darne una spiegazione e li utilizza per fare previsioni su nuovi esempi.

Prendiamo ad esempio i consigli di film. Supponiamo che un miliardo di persone elenchi i propri dieci film preferiti. È una quantità enorme di esempi che può essere utilizzata dal computer per apprendere le caratteristiche che hanno in comune i film apprezzati dalle persone. In seguito, il computer estrae schemi per spiegare gli esempi; uno di questi potrebbe essere "Le persone a cui piacciono i film horror in genere non apprezzano le storie d'amore, tuttavia alle persone piacciono i film interpretati dagli stessi attori". Successivamente, se un utente indica che gli è piaciuto Shining con Jack Nicholson, il computer può ipotizzare in modo realistico se apprezzerebbe Tutto può succedere, una commedia romantica con lo stesso attore, e quali altri video consigliargli su YouTube.

Capito. Più o meno. In ogni caso come funziona nella pratica?

Nella pratica gli schemi appresi dal computer possono essere molto complicati e difficili da spiegare a parole. Prendiamo in considerazione Google Foto, che consente di eseguire ricerche tra le foto per individuare immagini con cani. In che modo ci riesce Google? Innanzitutto raccogliamo una notevole quantità di esempi di foto con l'etichetta "cane" (grazie Internet!). Raccogliamo anche un ingente numero di foto con l'etichetta "gatto" e moltissime altre che non elencherò qui.

Il computer cerca quindi schemi di pixel e schemi di colori che possano essere utili per ipotizzare se si tratta di un gatto o di un cane (o di qualcos'altro). In un primo momento formula semplicemente ipotesi casuali in merito a quali schemi potrebbero essere validi per individuare i cani. In seguito osserva un esempio di immagine di un cane e valuta se gli schemi correnti sono adeguati. Se per errore scambia un cane per un gatto, apporta alcuni piccoli aggiustamenti agli schemi utilizzati. Successivamente osserva l'immagine di un gatto e ritocca ancora gli schemi per cercare di ottenere quello giusto. Questa procedura viene ripetuta un miliardo di volte; viene osservato un esempio e, se il risultato non è quello sperato, lo schema utilizzato viene ritoccato per migliorare i risultati su quell'esempio.

Infine, gli schemi formano un modello di machine learning, ad esempio una rete neurale profonda in grado (nella maggior parte dei casi) di identificare correttamente cani, gatti, vigili del fuoco e molto altro.

Suona molto futuristico. Quali altri prodotti Google utilizzano il machine learning al momento?

Tramite il machine learning, Google sta introducendo numerose novità; ad esempio, Google Traduttore può analizzare la foto di un cartello stradale o di un menù in una determinata lingua, capire quali sono le parole e la lingua della foto e tradurle come per magia in un'altra lingua in tempo reale.

Inoltre dicendo qualunque cosa a Google Traduttore, la funzione di riconoscimento vocale basato su machine learning entrerà in azione. Il riconoscimento vocale viene utilizzato anche in molti altri prodotti, ad esempio per comprendere le domande vocali rivolte all'app Google e per facilitare la ricerca dei video su YouTube.

Per quanto riguarda cartelli, menù e così via, è sufficiente inquadrarli con la fotocamera per ricevere una traduzione istantanea. Non hai nemmeno bisogno di una connessione a Internet. *Word Lens disponibile tra inglese e più di una ventina di lingue.
Dialoga con qualcuno che parla in un'altra lingua.
Scrivi a mano libera senza difficoltà parole e caratteri non supportati dalla tua tastiera.
Digita con facilità le parole che vuoi tradurre.

Machine learning e intelligenza artificiale sono la stessa cosa?

Questi termini in realtà possono assumere significati diversi in base alla persona, tuttavia intelligenza artificiale (IA) è un termine generico per indicare i programmi che cercano di risolvere problemi non ritenuti tali dalle persone, ad esempio raccontare una storia su ciò che sta accadendo in un'immagine. Un altro grandioso processo che gli esseri umani svolgono con facilità consiste nell'apprendimento tramite esempi. È ciò che anche i programmi di machine learning cercano di fare: insegnare ai computer ad apprendere tramite esempi.

Il momento in cui capiamo come realizzare questi programmi è meraviglioso. A volte possiamo riprodurli su grande scala in modo che possano gestire rapidamente grandi quantità di dati e possiamo risolvere problemi davvero complicati: ad esempio diventare esperti di Go, guidare tutti nel traffico contemporaneamente, ottimizzare il consumo energetico a livello nazionale e, ovviamente, ciò che preferisco, trovare i migliori risultati di ricerca su Google.

Perché in questo momento Google sta dando così tanta importanza al machine learning?

Il machine learning non è una novità assoluta e affonda le proprie radici nella statistica del XVIII secolo. Effettivamente però il tema è salito alla ribalta recentemente per tre motivi.

In primo luogo, sono necessari moltissimi esempi per insegnare ai computer come formulare previsioni attendibili, anche in merito a temi che a noi possono apparire semplici (ad esempio trovare un cane in una foto). Grazie a tutta l'attività su Internet, ora disponiamo di una ricca fonte di esempi da cui i computer possono apprendere. Ad esempio, ora nei siti web di tutto il mondo si possono trovare milioni di foto di cani con l'etichetta "cane", in ogni lingua.

Tuttavia non basta disporre di molti esempi. Non si può semplicemente mostrare una miriade di foto di cani a una webcam e aspettarsi che impari; il computer ha bisogno di un programma per l'apprendimento. Recentemente il settore (e Google) ha fatto progressi esaltanti, aumentando il livello di complessità e potenza raggiungibile dai programmi di machine learning.

I nostri programmi tuttavia non sono ancora perfetti e i computer sono ancora abbastanza stupidi, pertanto dobbiamo osservare molti esempi per un numero incredibile di volte e regolare una notevole quantità di manopole digitali prima di raggiungere l'obiettivo. Tutto ciò richiede una potenza di elaborazione enorme e un calcolo parallelo ingente. Ma i progressi raggiunti da nuovo software e hardware hanno reso possibile anche questo.

C'è qualcosa che al momento i computer non sono in grado di fare, ma che sarà possibile a breve grazie al machine learning?

In pratica, fino a pochissimo tempo fa, il riconoscimento vocale faceva fatica a riconoscere dieci cifre diverse quando veniva letto al telefono il numero della carta di credito. Negli ultimi cinque anni, grazie a metodi sofisticati di machine learning, il riconoscimento vocale ha fatto progressi incredibili e ora può essere utilizzato per eseguire ricerche su Google. E continua a migliorare, velocemente.

Penso che il machine learning migliorerà anche il nostro aspetto. Non so tu, ma io odio provare i vestiti. Se trovo una marca di jeans che mi sta bene, ne compro cinque paia. Il machine learning però può trasformare gli esempi di marche che ci stanno bene in consigli su altri prodotti che potrebbero essere adatti a noi. Questo problema non rientra negli obiettivi di Google, ma spero che qualcuno ci stia lavorando.

Come sarà il machine learning tra dieci anni?

Un punto su cui l'intero settore si sta concentrando è come apprendere più rapidamente con meno esempi. Un approccio (su cui Google sta lavorando molto) consiste nell'attribuire ai computer più buon senso, che gli addetti ai lavori definiscono "regolarizzazione".

Che cosa si intende per buon senso nel caso di un computer? Tra le altre cose si intende che, in generale, se un esempio cambia solo leggermente, il computer non dovrebbe modificare totalmente la sua opinione. Ad esempio, la foto di un cane con un cappello da cowboy è comunque la foto di un cane.

Rafforziamo questo tipo di buon senso nel programma di apprendimento, facendo in modo che il computer impari senza farsi condizionare da piccoli cambiamenti privi di importanza, come un cappello da cowboy. È facile da dire, ma se si sbaglia, il computer non sarà abbastanza sensibile ai cambiamenti importanti. È una questione di equilibrio che stiamo ancora cercando di comprendere.

Cosa ti entusiasma di più del machine learning? Che cosa ti motiva a lavorare in questo campo?

Sono cresciuta a Seattle, dove ho studiato a lungo i primi esploratori del Far West come Lewis e Clark. Nella ricerca sul machine learning c'è lo stesso spirito di esplorazione: scopriamo realtà mai viste prima e cerchiamo di tracciare un percorso per un futuro grandioso.

Se potessi creare uno slogan accattivante per il machine learning in Google, quale sarebbe?

Se non ci riesci al primo colpo, insisti un miliardo di volte.

Torna all'inizio