[ 240,017 page views, 116,787 usuários nos últimos 30 dias ] - [ 5.966 assinantes na newsletter, taxa de abertura 27% ]

Pesquisar
Foto de Markus Spiske na Unsplash

12.000 chaves de API e senhas em dados para treinar IA

Aproximadamente 12.000 chaves de API ativas e senhas codificadas foram encontradas no Common Crawl, um grande conjunto de dados usado para treinar LLMs: um blog de 27 de fevereiro da Truffle Security informou que 2,76 bilhões de páginas da web no repositório Common Crawl continham secrets ativos. Os pesquisadores também encontraram uma alta taxa de reutilização: 63% eram repetidas em várias páginas da web. Em um caso extremo, uma única chave de API apareceu 57.029 vezes em 1.871 subdomínios.

Leia também
Configuração foi a principal falha de 2024, diz estudo
Descobertas credenciais de nuvem em milhões de apps

Os pesquisadores da Truffle Security, empresa por trás do scanner de código aberto TruffleHog para dados confidenciais, encontraram secrets válidos após verificar 400 terabytes de dados de 2,67 bilhões de páginas da web no Common Crawl de dezembro de 2024.

Eles descobriram 11.908 secrets que foram autenticados com sucesso, que os desenvolvedores codificaram, indicando o potencial de LLMs sendo treinados em código inseguro. Após analisar os dados escaneados, a Truffle Security encontrou chaves de API válidas para os serviços Amazon Web Services (AWS), MailChimp e WalkScore. No geral, a TruffleHog identificou 219 tipos distintos de segredos no conjunto de dados do Common Crawl, sendo os mais comuns as chaves da API do MailChimp. Os pesquisadores também encontraram uma página da web com 17 webhooks exclusivos do Slack, que devem ser mantidos em segredo porque permitem que os aplicativos publiquem mensagens no Slack.