A Sophos e a ReversingLabs anunciaram hoje o lançamento do banco de dados SoReL-20M, uma coleção de 20 milhões de executáveis portáveis do Windows. Desse total, 10 milhões de arquivos são imagens de malwares – ou seja, malware desativados. O conjunto de dados, segundo a Sophos, é o primeiro disponível para o público em geral, com um conjunto selecionado e rotulado de amostras e metadados relevantes para a segurança. A expectativa das empresas é acelerar a pesquisa para detecção de malware por meio de aprendizado de máquina.
Veja isso
Imagens de máquinas virtuais para AWS podem estar contaminadas
Sophos reestrutura operações devido a efeitos da covid-19
Ao anunciar a publicação, a Sophos observa que dados “são a base sobre a qual os modelos de aprendizado de máquina são desenvolvidos. Conjuntos de dados padronizados são a maneira pela qual novos recursos e modelos são desenvolvidos, testados e comparados entre si. O desenvolvimento e facilidade de acesso para conjuntos de dados padronizados, como o conjunto de dados de dígitos MNIST e, posteriormente, conjuntos de dados realistas em grande escala, como o conjunto de dados ImageNet e o conjunto de dados Pascal Visual Object Classification, provocou uma explosão no aprendizado de máquina para reconhecimento de imagem que culminou em os modelos super-humanos disponíveis hoje”.
Ao contrário do reconhecimento de imagem ou do processamento de linguagem natural, explica o comunicado da empresam, a área de segurança viu “muito menos atividade e uma taxa de melhoria relativamente mais lenta. A principal razão para isso é simplesmente a falta de um conjunto de dados padrão, em grande escala e realista que possa ser facilmente obtido e testado por uma ampla gama de usuários, de pesquisadores independentes a laboratórios acadêmicos e grandes grupos corporativos. Obter um grande número de amostras rotuladas e selecionadas é caro e desafiador, e o compartilhamento de conjuntos de dados costuma ser difícil devido a questões relacionadas à propriedade intelectual e ao risco de fornecer software malicioso a terceiros desconhecidos. Como consequência, a maioria dos artigos publicados sobre detecção de malware funciona em conjuntos de dados internos privados, com resultados que não podem ser comparados diretamente entre si”.