A Microsoft e a gigante chinesa Alibaba desenvolveram modelos de rede neural que conseguiram bater os humanos em testes de leitura e compreensão da Universidade de Stanford, o Stanford Question Answering Dataset (SQuAD).
A Microsoft conseguiu pontuar em 82.650 na métrica ExactMatch (EM)* e a Alibaba em 82.440, respectivamente nos dias 3 e 5 desse mês. Salientando que a melhor pontuação que um humano teve até agora foi de 82.304.
“O SQuAD consiste em um novo conjunto de dados de compreensão de leitura, com perguntas elaboradas pela multidão (crowdworkers) em artigos da Wikipédia”, explica o Grupo Stanford NLP . “Com mais de 100.000 perguntas-respostas em mais de 500 artigos do Wikipedia, o SQuAD é significativamente maior do que os conjuntos anteriores de dados de compreensão de leitura”.
Luo Si, cientista-chefe de processamento de linguagem natural (PNL) do Alibaba iDST comentou:
É uma grande honra testemunhar o marco onde as máquinas superam os humanos na compreensão da leitura. Isso significa que perguntas como ´o que causa a chuva´ agora podem ser respondidas pelas máquinas com alta precisão. Estamos especialmente animados por acreditar que a tecnologia pode ser gradualmente aplicada em inúmeras atividades, como atendimento ao cliente, tutoriais de museu e respostas on-line a consultas médicas, diminuindo a necessidade humana de uma maneira sem precedentes “.
“Um início marcante de 2018 com o primeiro modelo (SLQA +) que ultrapassa o desempenho humano na métrica EM da @stanfordnlp SQuAD!”, disse Pranav Rajpurkar, aluno Ph.D. do Stanford Machine Learning Group e principal autor do artigo Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing no SQuAD (disponível no ArXiv). “Próximo desafio: métrica F1*, onde os humanos ainda lideram por ~ 2,5 pontos!” (O SLQA+ da Alibaba obteve 88.607 no F1 e a Microsoft marcou 88.493).
No entanto, desafiando o que seja “compreensão”, Gary Marcus, PhD, professor de Psicologia e Neural Science da NYU, observou em um de seus tweets que “o teste SQUAD mostra que as máquinas podem destacar passagens relevantes em um texto, mas que não necessariamente entendem essas passagens.”
O gigante chinês do comércio eletrônico se juntou à Tencent Holdings Ltd. e à Baidu Inc. em uma corrida para desenvolver uma inteligência artificial que possa aprimorar os feeds de mídias sociais, anúncios e serviços segmentados ou mesmo auxiliar carros autônomos, diz a nota da Bloomberg. “Beijing aprovou a tecnologia em um plano nacional que pretende levar o país à liderança nessa indústria em 2030.”
_________
*“A métrica ExactMatch mede a porcentagem de previsões que correspondem exatamente a uma das respostas verdadeiras. A métrica F1 mede a sobreposição média entre a previsão e a resposta verdadeira.” – Pranav Rajpurkar et al., ArXiv