Espera-se que a Inteligência Artificial e o Aprendizado de Máquina (Machine Learning) possam no futuro desempenhar um papel crucial na luta contra ameaças cibernéticas, estas que atingem empresas e nossa vida cotidiana.  Até porque tantos negócios quanto a nossa vida pessoal estão, cada vez mais, envolvidos com o mundo digital – e com isso, surgem novos riscos.

“Cibercriminosos podem usar ML [Machine Learning] de várias maneiras, seja para melhorar seu malware, visar vítimas específicas e extrair dados importantes, procurar vulnerabilidades do dia a dia ou proteger infraestruturas sequestradas, como botnets”, alerta Juraj Jánošík, especialista em inteligência artificial.

Também é importante estarmos cientes das diferenças nos tipos de IA usados ​​para segurança. Na última década, ML teve um enorme progresso com o Aprendizado Supervisionado e de Reforço, desde reconhecimento de fotos até carros autônomos.

No entanto, sabe-se hoje que o Aprendizado Supervisionado tem limitação para encontrar ameaças, porque procura apenas informações específicas que já viu ou rotulou anteriormente, enquanto o Aprendizado Não Supervisionado pode constantemente pesquisar uma rede para encontrar anomalias.

Em matéria publicada na TechNative, Ana Mezic, especialista em segurança cibernética explica que o Aprendizado Supervisionado depende de um processo de rotulagem para “entender” as informações que chegam.

A máquina aprende rotulando muitos dados e é capaz de “reconhecer” alguma coisa somente depois que alguém, digamos um especialista em segurança, já a rotulou, pois não pode fazer isso sozinha.

“Isso é válido quando você sabe exatamente o que está procurando, o que definitivamente, não é o caso da segurança cibernética. Na maioria das vezes, os hackers usam métodos de ataque que um programa de segurança nunca viu antes; nesse caso, um sistema supervisionado seria totalmente inútil”, diz Ana. “É aqui que entra o Aprendizado Não Supervisionado, que pode extrair inferências de conjuntos de dados sem rótulos e é útil se você deseja encontrar padrões, mas não sabe exatamente o que está procurando.”

Essa característica do Aprendizado Não Supervisionado, o torna mais adequado em segurança cibernética, onde o invasor está sempre alterando seus métodos. Esse tipo de aprendizado não procura um rótulo específico, mas qualquer padrão que esteja fora da norma será sinalizado como perigoso, o que é um método muito melhor em uma situação em que o hacker está sempre mudando a forma de agir.

O Aprendizado Não Supervisionado cria uma linha de base para uma rede específica mostrando como tudo deve ser em um dia normal. “Dessa forma, se alguma transferência de arquivo quebrar o padrão de comportamento por ser muito grande ou ser enviada em um momento meio estranho, ela será sinalizada como possivelmente perigosa pelo sistema não supervisionado. Já um programa de Aprendizado Supervisionado perderá um ataque se nunca o tiver visto antes porque ainda não classificou essa atividade como perigosa, enquanto que com a segurança do Aprendizado Não Supervisionado, o programa precisa saber apenas que a ação é anormal para sinalizá-la como uma ameaça em potencial” compara Ana

Modelos Generativos e Modelos Discriminativos

Existem dois tipos de Aprendizado Não Supervisionado: modelos discriminativos e modelos generativos. Os primeiros são capazes de dizer que se você der X, a consequência será Y. Já os modelos generativos podem dizer a probabilidade total de você ver X e Y ao mesmo tempo.

A diferença é a seguinte: o modelo discriminativo atribui rótulos às entradas e não possui capacidade preditiva. Se recebe um X diferente que nunca viu antes, não pode dizer qual será o Y, porque simplesmente não aprendeu isso. Com modelos generativos, depois de configurá-lo e encontrar a linha de base, é possível fornecer qualquer entrada e pedir uma resposta, pois possui capacidade preditiva – por exemplo, pode gerar um possível comportamento de rede que nunca viu antes.

Ana exemplifica: “digamos que alguém envie um arquivo de 30 mega ao meio-dia, qual é a probabilidade de ele fazer isso? Se você perguntasse a um modelo discriminativo se isso é normal, ele verificaria se a pessoa já havia enviado esse arquivo ao meio-dia antes… mas apenas especificamente ao meio-dia. Considerando que um modelo generativo examinaria o contexto da situação e verificaria se já havia sido enviado um arquivo como aquele às 11:59 da manhã às 12:30 da tarde, e basear suas conclusões fora das circunstâncias circundantes, a fim de ser mais preciso em suas previsões.”

A Aprendizagem Não Supervisionada coleta dados para formar uma linha de base da rede e poderá prever o que acontecerá ao longo do tempo devido ao seu conhecimento de como é o dia da semana para uma determinada rede. Se algo sair dessa linha de base, a plataforma alertará a equipe de segurança que houve uma irregularidade detectada no desempenho da rede.

Novamente Ana exemplifica: “ele coleta dados à medida que avança e diz que sabe o que acontecerá na segunda-feira às 9:00. As pessoas entrarão e o volume da rede crescerá; depois, ao meio-dia, elas irão almoçar, para que o nível da rede caia um pouco, elas continuarão trabalhando até as seis e voltarão para casa, e o nível da rede diminuirá para o nível que costuma estar à noite.”

Devido ao seu poder preditivo, o modelo de Aprendizado Não Supervisionado Generativo é capaz de impedir ataques de dia zero, o que o torna o melhor método de segurança disponível no mercado, com tempo de resposta mais rápido a qualquer violação.

Aprendizado Semi-Supervisionado é o futuro

O Aprendizado Semi-Supervisionado ou Ativo pega o melhor dos dois [Não supervisionado e do Supervisionado] para prever como uma rede deve se comportar.

O Semi-Supervisionado começa com o Aprendizado Não Supervisionado, procurando quaisquer padrões em uma rede que se desviem da norma; depois que encontra algum, pode rotulá-lo como uma ameaça, que é a parte do Aprendizado Supervisionado.

Uma plataforma de Aprendizado Semi-Supervisionado será extremamente útil, defende Ana, pois não apenas procura constantemente desvios na rede, como também rotula e adiciona constantemente metadados às anormalidades encontradas, o que o torna um sistema de detecção e resposta extremamente poderoso.

Richarlison Bandeira

Richarlison Bandeira é Gestor de Tecnologia no O Futuro das Coisas e Especialista em IA para negócios. Atua há 19 anos em projetos de tecnologia e Transformação Digital para produtos e negócios online.

Ver todos os artigos