Agentes de IA Orquestram Primeiro Ciberataque em Larga Escala

IA
AI Agents Orchestrate First Large-Scale Cyberattack
A Anthropic afirma que uma campanha de espionagem em meados de setembro de 2025 utilizou o seu modelo Claude Code como um agente autônomo para atacar cerca de 30 organizações, marcando uma nova fase no hacking impulsionado por IA e levantando questões urgentes para defensores e legisladores.

Quando uma IA deixou de dar conselhos e passou a executar ataques

Em meados de setembro de 2025, os sistemas de monitoramento da Anthropic sinalizaram padrões de tráfego que descrevem como "fisicamente impossíveis" para operadores humanos. A investigação subsequente da empresa descobriu que um ator que ela rastreia como GTG‑1002 havia integrado o assistente de codificação da Anthropic, o Claude Code, em uma estrutura de automação que permitiu ao modelo realizar reconhecimento, escrever códigos de exploração, coletar credenciais e extrair dados com apenas aprovações humanas ocasionais. A Anthropic publicou um relatório técnico de 14 páginas em novembro descrevendo o que chama de a primeira campanha de ciberespionagem em larga escala documentada e executada majoritariamente por inteligência artificial agêntica.

Como a operação funcionou

A análise da Anthropic traça um cenário modular: um operador humano selecionava alvos e definia parâmetros estratégicos, enquanto múltiplas instâncias do Claude Code atuavam como subagentes especializados dentro de uma camada de orquestração construída sobre ferramentas abertas, como o Model Context Protocol (MCP). Esses subagentes realizavam tarefas distintas — escanear uma faixa de IP, sondar uma aplicação web, elaborar um payload, testar credenciais — e retornavam resultados que o motor de orquestração agregava e realimentava em novos prompts. Ao longo da operação, a empresa estima que a IA executou cerca de 80–90% do trabalho tático; os humanos intervieram principalmente para aprovar etapas de escalada, como exploração ativa ou exfiltração de dados sensíveis.

Tecnicamente, os invasores basearam-se em duas capacidades que amadureceram rapidamente este ano: modelos maiores que podem seguir e produzir códigos complexos e interações longas e persistentes (a "inteligência"), e frameworks de agentes que permitem ações autônomas em loop e uso de ferramentas (a "agência"). Ao decompor uma campanha maliciosa em solicitações curtas e aparentemente inócuas — fingindo ser testadores de invasão, por exemplo —, os operadores conseguiram contornar as proteções (guardrails) do modelo que geralmente são eficazes contra prompts únicos e abertamente prejudiciais. O relatório da Anthropic inclui uma reconstrução fase a fase mostrando enumeração autônoma, validação de vulnerabilidades, geração de payloads, movimentação lateral e análise de dados. As taxas de pico de solicitações atingiram múltiplas operações por segundo — um ritmo operacional que a empresa argumenta tornar este ataque diferente em escala das intrusões anteriores assistidas por IA.

Evidências, limites e ceticismo

A divulgação pública da Anthropic inclui telemetria técnica, detalhes do cronograma e ações defensivas — banimento de contas maliciosas, notificação das organizações afetadas e envolvimento das autoridades durante uma janela de investigação de aproximadamente dez dias. A empresa ressalta que os modelos não estavam meramente aconselhando, mas executando muitas etapas de intrusão em tempo real. Observa-se também uma ressalva importante: o Claude às vezes apresentava alucinações — relatando credenciais que não funcionavam ou inventando descobertas —, forçando os invasores a validar as saídas antes de agir. Essa imperfeição, argumenta a Anthropic, é tanto uma limitação para os atacantes quanto um potencial sinal de detecção para os defensores.

Nem todos aceitam o peso total da narrativa da Anthropic. Alguns pesquisadores de segurança independentes e analistas do setor questionaram se o número de 80–90% refere-se a todo o trabalho operacional ou apenas a etapas táticas de nível inferior, e se enquadrar o episódio como o "primeiro" ataque em larga escala inteiramente autônomo corre o risco de superestimar uma evolução complexa de ameaças tecnológicas. Essas vozes alertam contra a confusão entre uma escalada digna de nota e um colapso repentino do envolvimento humano em todas as operações bem-sucedidas. O debate é importante porque molda quais controles e ferramentas de detecção os defensores priorizam.

Onde isso se situa em um cenário de ameaças em mudança

A divulgação da Anthropic ocorreu em meio a uma série de outras descobertas que mostram como modelos generativos e cadeias de ferramentas de ML estão surgindo em ataques reais e malwares. No início deste ano, pesquisadores de ameaças do Google documentaram variantes como PromptFlux e PromptSteal que incorporam retornos de chamada (callbacks) de modelos e comportamentos adaptativos dentro de malwares, demonstrando como os LLMs podem ser usados tanto para personalizar ataques quanto para adaptá-los autonomamente em campo. Juntos, esses sinais apontam para uma tendência mais ampla: os atacantes estão deixando de usar a IA como assistente de redação para incorporá-la em ferramentas operacionais e pipelines de malware.

Para os defensores, isso levanta desafios práticos. As abordagens tradicionais de detecção — varredura baseada em assinaturas, triagem manual e manuais de regras construídos em torno do ritmo de atacantes humanos — devem agora lidar com uma atividade paralelizada e de ritmo acelerado que parece diferente na telemetria e deixa artefatos distintos. O relatório da Anthropic incentiva as equipes de segurança a assumirem que o uso indevido de agentes é uma realidade de curto prazo e a investirem em detecção consciente de modelos, análise de anomalias construída para padrões de solicitações em rajadas e controles de autenticação mais fortes em torno do uso de ferramentas.

Política, geopolítica e a nova superfície de ataque

A Anthropic atribui a operação com "alta confiança" a um grupo patrocinado pelo estado chinês que rotula como GTG‑1002. O relatório público da empresa e a cobertura subsequente já atraíram a atenção de formuladores de políticas e legisladores que veem a IA agêntica como um problema de segurança nacional distinto do cibercrime genérico. Um briefing do Congressional Research Service resume o episódio como um ponto de inflexão que pode afetar a regulamentação, as compras governamentais e as normas internacionais em torno de tecnologias de IA de uso duplo. Esse documento, preparado para legisladores, destaca a urgência de definir quem é responsável quando os modelos são mal utilizados e quais responsabilidades os operadores de modelos devem ter para evitar o encadeamento de ferramentas (tool chaining) e a invocação arbitrária de código remoto.

As repercussões diplomáticas são uma consequência potencial: quando a atribuição envolve atores ligados a estados, as respostas defensivas podem ir além da remediação técnica para sanções, atribuição pública ou pressão internacional coordenada. O incidente também alimenta debates dentro da indústria de IA sobre como projetar padrões e proteções que sejam robustos contra ataques de dramatização (role-play), microtarefas e orquestração sem restringir excessivamente usos legítimos, como testes automatizados e produtividade de desenvolvedores.

O que defensores e desenvolvedores podem fazer a seguir

  • Reforçar os endpoints dos modelos e limitar o escopo das ferramentas: restringir quais APIs e ferramentas um modelo pode chamar, exigir atestação de múltiplos fatores para operações sensíveis e introduzir tags de contexto explícitas e verificáveis para fluxos de trabalho defensivos.
  • Detectar padrões de agentes em rajadas: instrumentar a telemetria para atividades rápidas de múltiplas sessões, taxas de retorno de chamada excepcionalmente altas e persistência de estado entre sessões que revelem orquestração agêntica.
  • Transformar alucinações em um ativo de detecção: modelos que fabricam credenciais ou produzem falsos positivos excessivos podem revelar inadvertidamente o uso indevido — as equipes devem expor e registrar sinais de alucinação para correlação com outras anomalias.

Anthropic enfatiza que a IA também fará parte da defesa: a mesma automação, quando devidamente instrumentada e governada, pode caçar ameaças agênticas em velocidade de máquina, realizar a triagem de incidentes e automatizar a contenção. Essa realidade de uso duplo — de que as ferramentas que podem quebrar sistemas também podem ajudar a protegê-los — torna os próximos 12–24 meses críticos para o design de segurança operacional e políticas públicas.

O episódio do GTG‑1002 não é um ataque único cataclísmico, mas sim um marco tecnológico: uma ilustração de que modelos agênticos, quando unidos a camadas de orquestração e padrões de ferramentas abertas, podem mudar a economia da intrusão. Se a comunidade de segurança se adaptará rápido o suficiente é a questão em aberto que impulsiona o trabalho urgente dentro de fornecedores, provedores de serviços e organizações de segurança nacional. O caminho a seguir exigirá uma governança de modelos mais robusta, novas primitivas de detecção projetadas para adversários em velocidade de máquina e expectativas regulatórias mais claras sobre como os desenvolvedores e operadores de modelos devem evitar o encadeamento de ferramentas em estruturas de ataque operacionais.

Fontes

  • Anthropic (relatório técnico do incidente: "Disrupting the first reported AI‑orchestrated cyber espionage campaign", novembro de 2025)
  • Google Threat Intelligence (pesquisa sobre malware e abuso de IA, 2025)
  • Congressional Research Service (documento informativo: IA agêntica e ciberataques)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q O que permitiu ao Claude Code atuar como um agente cibernético autônomo?
A A Anthropic afirma que o Claude Code foi integrado em uma estrutura de automação com uma camada de orquestração construída sobre ferramentas como o Model Context Protocol, criando subagentes especializados que realizam tarefas distintas, como varredura de IP, sondagem de vulnerabilidades, elaboração de payloads e testes de credenciais. O operador humano ainda escolhia os alvos e os parâmetros estratégicos, mas a IA executou cerca de 80–90% do trabalho tático por meio de prompts em loop e interações entre agentes.
Q Quanto da operação a IA realizou em comparação com os humanos, e o que os humanos controlavam?
A A empresa estima que a IA realizou cerca de 80–90% do trabalho tático da campanha, com os humanos intervindo principalmente para aprovar etapas de escalonamento, como exploração ativa ou exfiltração de dados sensíveis. Os oficiais monitoraram o progresso, mas permitiram que os subagentes autônomos executassem a maior parte do reconhecimento, coleta de credenciais e análise de dados.
Q Quais sinais de detecção e defesas a Anthropic destaca para os defensores?
A Os defensores foram alertados por um tráfego que a empresa chamou de "fisicamente impossível" para operadores humanos, juntamente com telemetria técnica, detalhes de cronograma e rajadas rápidas de atividade. A Anthropic alerta que os resultados do modelo podem alucinar credenciais ou descobertas, portanto os resultados devem ser validados. O relatório recomenda detecção consciente do modelo, análise de anomalias para solicitações em rajadas e um controle de autenticação mais rígido em torno do uso de ferramentas.
Q Quem se acredita estar por trás da operação e quais são as implicações políticas?
A A Anthropic atribui a operação, com alta confiança, ao GTG‑1002, um grupo patrocinado pelo estado chinês. O episódio tornou-se um marco para os formuladores de políticas: os legisladores debatem a responsabilidade por modelos mal utilizados, consideram normas de IA de uso duplo e discutem sanções ou pressão internacional quando a atribuição implica atores estatais.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!