A Microsoft e a Intel Labs trabalham no STAMINA, uma nova abordagem de aprendizado profundo para detectar e classificar malware.
A Microsoft e a Intel colaboraram recentemente em um novo projeto de pesquisa que explorou uma nova abordagem para detectar e classificar malware.
Chamado STAMINA ( STA tic M alware-como- eu mago N etwork A nálise), o projeto conta com uma nova técnica que converte amostras de malware em imagens em tons de cinza e, em seguida, digitaliza a imagem para os padrões texturais e estruturais específico para amostras de malware.
COMO O STAMINA REALMENTE FUNCIONA
A equipe de pesquisa Intel-Microsoft disse que todo o processo seguiu alguns passos simples. O primeiro consistia em pegar um arquivo de entrada e converter sua forma binária em um fluxo de dados brutos de pixel.
Os pesquisadores pegaram esse fluxo de pixels unidimensional (1D) e o converteram em uma foto 2D para que algoritmos normais de análise de imagem possam analisá-lo.
A largura da imagem foi selecionada com base no tamanho do arquivo de entrada, usando a tabela abaixo. A altura era dinâmica e resultou da divisão do fluxo de pixels brutos pelo valor da largura escolhido.
Depois de montar o fluxo de pixels brutos em uma imagem 2D de aparência normal, os pesquisadores redimensionaram a foto resultante para uma dimensão menor.
A equipe da Intel e da Microsoft disse que o redimensionamento da imagem bruta não "impactou negativamente o resultado da classificação", e essa foi uma etapa necessária para que os recursos computacionais não precisem trabalhar com imagens compostas por bilhões de pixels, o que provavelmente abrandar o processamento.
As imagens redimensionadas foram então alimentadas em uma rede neural profunda (DNN) pré-treinada que digitalizou a imagem (representação 2D da variedade de malware) e a classificou como limpa ou infectada.
A Microsoft diz que forneceu uma amostra de 2,2 milhões de hashes de arquivos PE (Portable Executable) infectados para servir de base para a pesquisa.
Os pesquisadores usaram 60% das amostras de malware conhecidas para treinar o algoritmo DNN original, 20% dos arquivos para validar o DNN e os outros 20% para o processo de teste real.
A equipe de pesquisa disse que o STAMINA alcançou uma precisão de 99,07% na identificação e classificação de amostras de malware, com uma taxa de falsos positivos de 2,58%.
"Os resultados certamente encorajam o uso de um profundo aprendizado de transferência para fins de classificação de malware", disseram Jugal Parikh e Marc Marino, os dois pesquisadores da Microsoft que participaram da pesquisa em nome da equipe de inteligência de proteção contra ameaças da Microsoft.
INVESTIMENTO DA MICROSOFT EM APRENDIZADO DE MÁQUINA
A pesquisa faz parte dos esforços recentes da Microsoft para melhorar a detecção de malware usando técnicas de aprendizado de máquina.
STAMINA usou uma técnica chamada aprendizado profundo. O aprendizado profundo é um subconjunto de aprendizado de máquina (ML), um ramo da inteligência artificial (AI), que se refere a redes de computadores inteligentes capazes de aprender por conta própria a partir de dados de entrada armazenados em um formato não estruturado ou não rotulado - em Nesse caso, um binário aleatório de malware.
A Microsoft disse que, embora o STAMINA tenha sido preciso e rápido ao trabalhar com arquivos menores, ele foi encontrado com arquivos maiores.
"Para aplicativos de tamanho maior, o STAMINA se torna menos eficaz devido a limitações na conversão de bilhões de pixels em imagens JPEG e redimensionando-as", afirmou a Microsoft em um post na semana passada .
No entanto, isso provavelmente não importa, pois o projeto pode ser usado apenas para arquivos pequenos, com excelentes resultados.
Em entrevista ao ZDNet no início deste mês , Tanmay Ganacharya, diretora de pesquisa de segurança da Microsoft Threat Protection, disse que a Microsoft agora depende muito do aprendizado de máquina para detectar ameaças emergentes, e esse sistema usa diferentes módulos de aprendizado de máquina que estão sendo implantados no cliente sistemas ou servidores Microsoft.
A Microsoft agora usa mecanismos de modelo de aprendizado de máquina do lado do cliente, mecanismos de modelo de aprendizado de máquina do lado da nuvem, módulos de aprendizado de máquina para capturar sequências de comportamentos ou capturar o conteúdo do próprio arquivo, disse Ganacharya.
Com base nos resultados relatados, o STAMINA pode muito bem ser um daqueles módulos de ML que poderemos ver implementados na Microsoft em breve como uma maneira de detectar malware.
Atualmente, a Microsoft pode fazer com que essa abordagem funcione melhor do que outras empresas, principalmente devido aos dados absolutos que possui das centenas de milhões de instalações do Windows Defender.
"Qualquer um pode construir um modelo, mas os dados rotulados, a quantidade e a qualidade dele, realmente ajudam a treinar os modelos de aprendizado de máquina de maneira apropriada e, portanto, definem a eficácia deles", disse Ganacharya.
"E nós, na Microsoft, temos isso como uma vantagem, porque temos sensores que nos trazem muitos sinais interessantes por e-mail, identidade, ponto final e capacidade de combiná-los".