Um sistema que consegue detectar e entender, de um vídeo em tempo real, os gestos, as poses e os movimentos corporais de várias pessoas – inclusive, a pose dos dedos de cada uma. Isso foi o que conseguiu os pesquisadores do Instituto de Robótica da Universidade Carnegie Mellon (CMU).
Essa capacidade de reconhecer as poses dos dedos ou da mão, por exemplo, nos permitirá em breve interagir com computadores de novas maneiras e de forma mais natural, como simplesmente apontando para alguma coisa.
Os robôs irão perceber aquilo que você está fazendo, detectar o seu estado de humor e se você pode ser incomodado ou interrompido, por exemplo. Um carro autônomo poderá ser avisado de que um pedestre está prestes a entrar na rua, apenas monitorando a linguagem corporal dele. Essa tecnologia também pode ser usada para diagnósticos comportamentais e para reabilitação de condições como autismo, dislexia e depressão, dizem os pesquisadores.
Crédito: The Robotics Institute Carnegie Mellon University
Na análise de jogos esportivos, a detecção da pose em tempo real possibilitará que os computadores não apenas acompanhem a posição de cada jogador, como é o caso agora, mas também saibam o que os jogadores estão fazendo com os braços, as pernas e a cabeça em cada ponto no tempo. Os métodos podem ser usados para eventos ao vivo ou aplicados a vídeos já gravados.
Este método tinha sido desenvolvido no estúdio Panoptic Studio da CMU, em um dome de dois andares integrado a 500 câmeras de vídeo. Só que agora, os pesquisadores conseguiram fazer a mesma coisa apenas com uma única câmera e um laptop.
O novo código computacional dos pesquisadores já está sendo amplamente utilizado por grupos de pesquisa, e por mais de 20 grupos comerciais – incluindo empresas automotivas – que manifestaram interesse em licenciar a tecnologia, de acordo com Yaser Sheikh, professor de robótica.
Desafios superados
Rastrear várias pessoas em tempo real, particularmente em situações sociais em que elas podem estar em contato entre si, apresenta uma série de desafios.
Os desafios para detectar a mão são ainda maiores. À medida que as pessoas usam as mãos para segurar objetos e fazer gestos, é improvável que uma câmera veja todas as partes da mão ao mesmo tempo.
Sheikh e seus colegas adotaram uma abordagem de baixo para cima, que primeiro localiza todas as partes do corpo em uma cena – braços, pernas, rostos, etc. – e depois associa essas partes a determinadas pessoas.
Eles irão apresentar relatórios sobre esse método de detecção multipessoal e manual na CVPR 2017, Conferência de Visão de Computacional e Reconhecimento de Padrões, que acontecerá entre 21 a 26 de julho em Honolulu.