Análise: perguntas e respostas sobre o aprendizado de máquina

Para muitos de nós, o aprendizado de máquina parece algo bastante futurista. No entanto, recentemente ele tem aparecido cada vez mais em nossas vidas. Seja em uma partida de Go, o tradicional jogo japonês, jogada por um computador do Google ou na criação de respostas automáticas para o do Inbox do Gmail. Embora tudo isso seja muito legal, algumas pessoas ainda se perguntam o que é exatamente o aprendizado de máquina. Ou por que ele é importante. Ou por que identificar um cão em uma foto não é tão fácil quanto parece. Por isso, nos reunimos com Maya Gupta, cientista de pesquisas em aprendizado de máquina no Google, para explicar tudo isso.

Vamos começar com o básico. O que é exatamente o aprendizado de máquina?

No aprendizado de máquina, o computador pega diversos exemplos, identifica padrões que explicam esses exemplos e, então usa esses padrões para fazer previsões de novos exemplos.

Veja as recomendações de filmes, por exemplo. Digamos que um bilhão de pessoas nos diga quais são seus dez filmes favoritos. O resultado são muitos exemplos que o computador pode usar para aprender o que esses filmes favoritos têm em comum. Assim, o computador identifica padrões para explicar esses exemplos, como, por exemplo: "As pessoas que gostam de filmes de terror, geralmente não gostam de romances, mas as pessoas gostam de filmes com os mesmos atores". Então, se você disser ao computador que gostou de "O Iluminado", com Jack Nicholson, ele poderá supor que você gostaria da comédia romântica "Alguém Tem que Ceder", com Jack Nicholson, e fazer recomendações de vídeos para você no YouTube.

Entendi. Mais ou menos. Mas como isso funciona na prática?

Na prática, os padrões que a máquina aprende podem ser muito complicados e difíceis de explicar em palavras. Por exemplo, o Google Fotos, que permite buscar imagens com cães nas suas fotos. Como o Google faz isso? Primeiro, pegamos vários exemplos de fotos com a marcação "cão" (valeu, Internet!). Também pegamos um monte de fotos marcadas como "gato", além de imagens com milhões de outras marcações, que dariam uma lista muito grande para colocar aqui :).

Em seguida, o computador procura por padrões de pixels e de cores que o ajudam a adivinhar se é um gato, um cão ou outro elemento. Primeiro, ele supõe aleatoriamente quais seriam os padrões adequados para a identificação de cães. Em seguida, ele analisa um exemplo de imagem de um cão e vê se os padrões atuais estão certos. Se erroneamente ele chama um gato de cão, então ele faz alguns ajustes nos padrões que estão sendo usados. Em seguida, ele analisa a imagem de um gato e novamente ajusta seus padrões para, dessa vez, acertar. E o processo é repetido cerca de um bilhão de vezes: o computador vê um exemplo e, em caso de erro, ajusta os padrões que estão em uso para melhorar a análise daquele exemplo.

No final, os padrões formam um modelo aprendido pela máquina, como uma rede neural profunda que sabe identificar (na maioria das vezes) cães, gatos, bombeiros e muitas, muitas outras coisas.

Isso parece muito futurista. Quais seriam exemplos de produtos do Google que usam o aprendizado de máquina hoje?

Há uma série de novos recursos sendo desenvolvidos pelo Google com o auxílio do aprendizado de máquina. Um exemplo é o Google Tradutor, que pode tirar uma foto de uma placa de rua ou de um menu em um determinado idioma, decifrar as palavras que estão na foto e, automaticamente, traduzi-las em tempo real para o seu idioma.

Você também pode dizer praticamente qualquer coisa para o Google Tradutor, que o reconhecimento de fala aprendido pela máquina entrará em ação. O reconhecimento de fala também é usado em diversos outros produtos. Por exemplo, ele ajuda a processar suas pesquisas por voz no Google app e facilita a pesquisa de vídeos no YouTube.

Para placas, menus etc., basta apontar a câmera e ver a tradução instantânea. Você não precisa nem mesmo de uma conexão com a Internet. *O Word Lens oferece traduções do inglês para mais de 10 idiomas.

Converse com alguém que fala outro idioma.

Escreva à mão caracteres e palavras que não estão no seu teclado. É muito fácil.

Basta digitar as palavras que você quer traduzir.

Por que o Google está fazendo esse alvoroço com o aprendizado de máquina agora?

O aprendizado de máquina não é algo novo. As raízes dele estão na estatística do século 18. Mas você tem razão, isso tem crescido nos últimos tempos, e por três razões.

Em primeiro lugar, precisamos de um grande número de exemplos para ensinar aos computadores como fazer boas previsões, até mesmo sobre coisas que você ou eu acharíamos fáceis (como encontrar um cão em uma foto). Com toda a atividade que há na Internet, hoje temos uma fonte de exemplos bastante rica que pode ser usada pelos computadores para aprender. Por exemplo, agora existem milhões de fotos de cães marcadas como "cão" em sites de todo o mundo, em todos os idiomas.

Contudo, ter vários exemplos não é o suficiente. Não basta mostrar um monte de fotos de cães para uma webcam e esperar que ela aprenda algo. O computador precisa de um programa de aprendizagem. E, ultimamente, esse campo e o Google têm feito algumas descobertas interessantes sobre o quão complicados e eficazes esses programas de aprendizado de máquina podem ser.

No entanto, nossos programas ainda não são perfeitos, e os computadores ainda são meio burros. Por isso, precisamos ver vários exemplos inúmeras vezes para ajustar diversos botões digitais até conseguir acertar. Isso consome muita capacidade de computação e recursos caros de processamento paralelo. Mas novos avanços em software e hardware também têm contribuído bastante.

O que os computadores ainda não conseguem fazer, mas logo será possível por causa do aprendizado de máquina?

Até ontem, o reconhecimento de fala tinha um trabalhão para reconhecer míseros 10 dígitos diferentes quando você lia o número do seu cartão de crédito pelo telefone. Nos últimos cinco anos, o reconhecimento de fala fez avanços incríveis utilizando um método sofisticado de aprendizado de máquina, que agora pode ser usado para fazer pesquisas no Google. E ele está ficando cada vez mais rápido e melhor.

Acredito que o aprendizado de máquina vai nos ajudar até a ficar mais bonitos. Não sei você, mas eu odeio experimentar roupas! Quando encontro uma marca de jeans que fica bem em mim, compro logo umas cinco peças. Mas o aprendizado de máquina pode transformar exemplos de marcas que ficam bem em nós em recomendações para outras peças que também poderão cair bem. Esse problema está um pouco fora do escopo do Google, mas espero que alguém já esteja correndo atrás disso!

Como será o aprendizado de máquina daqui a 10 anos?

Um foco da pesquisa de todo o nosso campo é como aprender mais rapidamente com menos exemplos. Uma determinada abordagem (na qual o Google tem trabalhado muito) está dando a nossas máquinas um pouco mais de discernimento, o que nessa área nós chamamos de "regularização".

E como funciona o discernimento de uma máquina? Um dos significados é que, em geral, se houver uma pequena alteração no exemplo, a máquina não irá mudar de ideia. Por exemplo, a foto de um cão de chapéu de vaqueiro ainda será reconhecida como um cão.

Nós reforçamos esse tipo de discernimento no programa, tornando o aprendizado de máquina indiferente a mudanças pequenas e sem importância, como um chapéu de vaqueiro. Embora falar seja fácil, se isso for feito da forma errada, a máquina pode se tornar insensível a mudanças importantes. Esse equilíbrio é uma arte que ainda estamos tentando dominar.

O que mais empolga você no aprendizado de máquina? O que a motiva a trabalhar nisso?

Eu cresci em Seattle, onde aprendemos muito sobre os primeiros exploradores do oeste americano, como Lewis e Clark. A pesquisa em aprendizado de máquina tem esse mesmo espírito de exploração: nós estamos vendo uma coisa pela primeira vez e tentando traçar um caminho para um grande futuro.

Se você pudesse criar uma frase de para-choque com um slogan do aprendizado de máquina do Google, o que seria?

"Se você não conseguir logo de cara, tente mais um bilhão de vezes."