Visualizar o futuro é uma das capacidades mais desejadas pelos seres humanos. Os robôs agora podem fazer isso.
Cientistas da Universidade de Berkeley, na Califórnia, desenvolveram uma tecnologia de aprendizagem que permite aos robôs imaginar o futuro de suas ações, e com isso, descubram como manipular objetos os quais eles nunca tenham visto antes.
Essa tecnologia, chamada de visual foresight (previsão visual), irá ajudar, por exemplo, os carros autônomos a antecipar eventos futuros nas ruas, como também será utilizada para criar assistentes robotizados mais inteligentes para uso domiciliar.
O protótipo inicial da UC Berkeley está focado no robô aprender habilidades manuais simples – semelhante à forma como as crianças aprendem sobre o mundo, manipulando os brinquedos: movendo, agarrando etc. Nesse caso, os robôs podem prever o que suas câmeras irão ver caso realizassem uma determinada sequência de movimentos.
UC Berkeley | Vestri, o robô.
Embora essas imaginações robóticas sejam ainda relativamente simples (por enquanto) – ou seja, são previsões de apenas alguns segundos no futuro – elas são suficientes para que o robô descubra como mover objetos em uma mesa sem esbarrar em obstáculos.
O robô aprende a realizar essas tarefas sem a ajuda de humanos ou de conhecimentos prévios sobre Física, sobre o ambiente ou quais são os objetos. Isso é possível porque a imaginação visual é inteiramente aprendida desde a exploração não supervisionada (sem humanos envolvidos), onde o robô brinca com objetos em uma mesa, e, sozinho, vai coletando os dados necessários, como um bebê faria.
Após esta fase do jogo, o robô constrói um modelo preditivo do mundo, que pode ser utilizado para manipular novos objetos que ele não tenha visto antes.
Da mesma forma que podemos imaginar como nossas ações podem mover objetos em nosso meio, esse método permite que o robô visualize como diferentes comportamentos podem afetar o mundo ao seu redor. Isso pode permitir o planejamento inteligente de habilidades altamente flexíveis em situações complexas do mundo real” – Sergey Levine, professor assistente do Departamento de Engenharia Elétrica e Ciências da Computação de Berkeley, cujo laboratório desenvolveu essa tecnologia.
O “core” desse sistema é a tecnologia de aprendizado profundo baseada na previsão de vídeo recorrente convolucional, ou na Advecção Neural Dinâmica (DNA – Dynamic Neural Advection). Os modelos baseados em DNA conseguem prever como os pixels de uma imagem se moverão de um frame para outro, com base nas ações do robô.
“No passado, os robôs aprenderam habilidades com um humano supervisionando, ajudando e dando feedback. O que torna este trabalho incrível é que os robôs podem aprender uma variedade de habilidades visuais de manipulação de objetos inteiramente sozinhos”, disse Chelsea Finn, aluna de doutorado no laboratório de Levine e inventora do modelo DNA.
Com a nova tecnologia, um robô empurra os objetos na mesa, e em seguida, usa o modelo de predição que ele aprendeu para escolher movimentos que irão levar um objeto para um local desejado. Os robôs usam o modelo aprendido das observações da câmera para ensinar a si mesmos como evitar obstáculos.
Uma vez que o controle através da previsão de vídeo depende apenas das observações que podem ser coletadas de forma autônoma pelo robô, como por meio das imagens das câmeras, o método resultante é amplamente aplicável. Isso contrasta com os métodos convencionais de visão computacional, que exigem que os humanos rotulem manualmente milhares ou mesmo milhões de imagens.
A equipe de pesquisadores demonstrou a tecnologia visual foresight na conferência Neural Information Processing Systems em Long Beach, na Califórnia, no dia 4 de dezembro de 2017.
Fonte: UC Berkeley