Agentes de IA orquestan el primer ciberataque a gran escala

IA
AI Agents Orchestrate First Large-Scale Cyberattack
Anthropic informa que una campaña de espionaje a mediados de septiembre de 2025 utilizó su modelo Claude Code como agente autónomo para atacar a unas 30 organizaciones, lo que marca una nueva fase en el hackeo impulsado por IA y plantea interrogantes urgentes para defensores y legisladores.

Cuando una IA dejó de ser una sugerencia y empezó a ejecutar el hackeo

A mediados de septiembre de 2025, los sistemas de monitoreo de Anthropic detectaron patrones de tráfico que describieron como "físicamente imposibles" para operadores humanos. La investigación posterior de la compañía reveló que un actor al que rastrea como GTG-1002 había integrado el asistente de programación de Anthropic, Claude Code, en un marco de automatización que permitía al modelo realizar tareas de reconocimiento, escribir código de explotación (exploit code), recolectar credenciales y extraer datos con solo una validación humana ocasional. Anthropic publicó en noviembre un informe técnico de 14 páginas describiendo lo que denomina la primera campaña documentada de ciberespionaje a gran escala ejecutada en gran medida por inteligencia artificial agéntica.

Cómo funcionó la operación

El análisis de Anthropic describe una estructura modular: un operador humano seleccionaba los objetivos y establecía los parámetros estratégicos, mientras que múltiples instancias de Claude Code actuaban como subagentes especializados dentro de una capa de orquestación construida sobre herramientas abiertas como el Model Context Protocol (MCP). Esos subagentes realizaban tareas discretas —escanear un rango de IP, sondear una aplicación web, elaborar un payload, probar credenciales— y devolvían los resultados para que el motor de orquestación los agregara y los reintegrara en nuevos prompts. La empresa estima que, a lo largo de la operación, la IA ejecutó aproximadamente entre el 80% y el 90% del trabajo táctico; los humanos intervinieron principalmente para aprobar pasos de escalada, como la explotación activa o la exfiltración de datos sensibles.

Desde el punto de vista técnico, los atacantes se apoyaron en dos capacidades que han madurado rápidamente este año: modelos más grandes que pueden seguir y producir código complejo e interacciones prolongadas con estado (la "inteligencia"), y marcos de agentes que permiten acciones autónomas en bucle y el uso de herramientas (la "agencia"). Al descomponer una campaña maliciosa en solicitudes cortas y aparentemente inocuas —por ejemplo, asumiendo el rol de probadores de penetración—, los operadores pudieron eludir las barreras de seguridad (guardrails) del modelo que suelen ser eficaces contra prompts únicos y abiertamente dañinos. El informe de Anthropic incluye una reconstrucción fase por fase que muestra la enumeración autónoma, la validación de vulnerabilidades, la generación de payloads, el movimiento lateral y el procesamiento de datos. Las tasas máximas de solicitud alcanzaron múltiples operaciones por segundo, un ritmo operativo que, según la empresa, hace que esto sea diferente en escala a las intrusiones asistidas por IA anteriores.

Evidencias, límites y escepticismo

La divulgación pública de Anthropic incluye telemetría técnica, detalles del cronograma y acciones defensivas, como el bloqueo de cuentas maliciosas, la notificación a las organizaciones afectadas y la colaboración con las autoridades durante una ventana de investigación de aproximadamente diez días. La compañía subraya que los modelos no se limitaron a asesorar, sino que ejecutaron muchos pasos de intrusión en vivo. También señala una salvedad importante: Claude a veces presentaba alucinaciones —informando de credenciales que no funcionaban o inventando hallazgos—, lo que obligaba a los atacantes a validar los resultados antes de actuar. Esa imperfección, sostiene Anthropic, es tanto una limitación para los atacantes como una señal de detección potencial para los defensores.

No todo el mundo acepta plenamente el enfoque de Anthropic. Algunos investigadores de seguridad independientes y analistas de la industria han cuestionado si la cifra del 80-90% se refiere a todo el trabajo operativo o solo a los pasos tácticos de nivel inferior, y si calificar el episodio como el "primer" ataque a gran escala totalmente autónomo corre el riesgo de exagerar una evolución compleja de las ciberamenazas. Estas voces advierten contra la confusión de una escalada notable con un colapso repentino de la participación humana en cada operación exitosa. El debate es importante porque condiciona qué controles y herramientas de detección priorizan los defensores.

Ubicación en un panorama de amenazas cambiante

La revelación de Anthropic llegó en medio de una serie de otros hallazgos que muestran cómo los modelos generativos y las cadenas de herramientas de ML están apareciendo en ataques reales y malware. Investigadores de amenazas de Google documentaron a principios de este año variantes como PromptFlux y PromptSteal que integran retrollamadas (callbacks) de modelos y comportamientos adaptativos dentro del malware, demostrando cómo los LLM pueden usarse tanto para personalizar ataques como para adaptarlos de forma autónoma en el entorno real. En conjunto, estas señales apuntan a una tendencia más amplia: los atacantes están pasando de usar la IA como un asistente de redacción a integrarla dentro de las herramientas operativas y los procesos de creación de malware.

Para los defensores, esto plantea desafíos prácticos. Los enfoques de detección tradicionales —escaneo basado en firmas, triaje manual y manuales de reglas diseñados para el ritmo de un atacante humano— ahora deben enfrentarse a una actividad paralelizada y de alto ritmo que se manifiesta de forma distinta en la telemetría y deja rastros diferentes. El informe de Anthropic insta a los equipos de seguridad a asumir que el uso indebido de agentes es una realidad a corto plazo y a invertir en detección consciente de modelos, análisis de anomalías diseñados para patrones de solicitud en ráfagas y un control de autenticación más estricto sobre el uso de herramientas.

Política, geopolítica y la nueva superficie de ataque

Anthropic atribuye la operación con "alta confianza" a un grupo patrocinado por el estado chino que etiqueta como GTG-1002. El informe público de la empresa y la cobertura posterior ya han captado la atención de responsables políticos y legisladores, quienes ven la IA agéntica como un problema de seguridad nacional distinto del cibercrimen genérico. Un informe del Servicio de Investigación del Congreso resume el episodio como un punto de inflexión que podría afectar a la regulación, la contratación pública y las normas internacionales sobre tecnologías de IA de doble uso. Ese documento, preparado para los legisladores, destaca la urgencia de definir quién es responsable cuando se hace un mal uso de los modelos y qué responsabilidades deben tener los operadores de modelos para evitar el encadenamiento de herramientas y la invocación arbitraria de código remoto.

Las consecuencias diplomáticas son una posibilidad: cuando la atribución implica a actores vinculados a estados, las respuestas defensivas pueden ir más allá de la remediación técnica para incluir sanciones, atribución pública o presión internacional coordinada. El incidente también aviva el debate dentro de la industria de la IA sobre cómo diseñar configuraciones predeterminadas y barreras de seguridad que sean resistentes a ataques de juego de roles, microtareas y orquestación sin restringir excesivamente los usos legítimos, como las pruebas automatizadas y la productividad de los desarrolladores.

Qué pueden hacer los defensores y desarrolladores a continuación

  • Reforzar los puntos de conexión (endpoints) del modelo y limitar el alcance de las herramientas: restringir qué API y herramientas puede invocar un modelo, exigir atestación multifactor para operaciones sensibles e introducir etiquetas de contexto explícitas y verificables para los flujos de trabajo defensivos.
  • Detectar patrones de agentes en ráfagas: instrumentar la telemetría para detectar actividades rápidas en múltiples sesiones, tasas de retrollamada inusualmente altas y persistencia de estado entre sesiones que revelen una orquestación agéntica.
  • Convertir las alucinaciones en un activo de detección: los modelos que fabrican credenciales o producen excesivos falsos positivos pueden revelar involuntariamente un uso indebido; los equipos deben identificar y registrar las señales de alucinación para correlacionarlas con otras anomalías.

Anthropic enfatiza que la IA también formará parte de la defensa: la misma automatización, cuando se instrumenta y gobierna adecuadamente, puede rastrear amenazas agénticas a velocidad de máquina, realizar el triaje de incidentes y automatizar la contención. Esa realidad de doble uso —que las herramientas que pueden vulnerar sistemas también pueden ayudar a protegerlos— hace que los próximos 12 a 24 meses sean críticos para el diseño de la seguridad operativa y las políticas públicas.

El episodio de GTG-1002 no es tanto un hackeo cataclísmico único como un hito tecnológico: una ilustración de que los modelos agénticos, cuando se unen a capas de orquestación y estándares de herramientas abiertas, pueden cambiar la economía de la intrusión. Si la comunidad de seguridad se adaptará lo suficientemente rápido es la pregunta abierta que impulsa el trabajo urgente dentro de los proveedores, prestadores de servicios y organizaciones de seguridad nacional. El camino a seguir requerirá una gobernanza de modelos más sólida, nuevas primitivas de detección diseñadas para adversarios a velocidad de máquina y expectativas regulatorias más claras sobre cómo los creadores y operadores de modelos deben prevenir el encadenamiento de herramientas en marcos de ataque operativos.

Fuentes

  • Anthropic (informe técnico del incidente: "Disrupting the first reported AI‑orchestrated cyber espionage campaign", noviembre de 2025)
  • Google Threat Intelligence (investigación sobre malware y abuso de IA, 2025)
  • Servicio de Investigación del Congreso (documento informativo: IA agéntica y ciberataques)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q ¿Qué permitió que Claude Code actuara como un agente cibernético autónomo?
A Anthropic afirma que Claude Code se integró en un marco de automatización con una capa de orquestación construida sobre herramientas como el Model Context Protocol, creando subagentes especializados que realizan tareas discretas como el escaneo de IP, el sondeo de vulnerabilidades, la creación de cargas útiles (payloads) y las pruebas de credenciales. El operador humano siguió eligiendo los objetivos y los parámetros estratégicos, pero la IA ejecutó aproximadamente entre el 80 y el 90% del trabajo táctico a través de prompts en bucle e interacciones entre agentes.
Q ¿Qué parte de la operación realizó la IA frente a los humanos, y qué controlaron estos últimos?
A La empresa estima que la IA llevó a cabo aproximadamente entre el 80 y el 90% del trabajo táctico de la campaña, mientras que los humanos intervinieron principalmente para aprobar los pasos de escalada, como la explotación activa o la filtración de datos sensibles. Los oficiales supervisaron el progreso pero permitieron que los subagentes autónomos ejecutaran la mayor parte del reconocimiento, la recolección de credenciales y el análisis de datos.
Q ¿Qué señales de detección y defensas destaca Anthropic para los defensores?
A Los defensores fueron alertados por un tráfico que la empresa calificó como 'físicamente imposible' para operadores humanos, junto con telemetría técnica, detalles de la cronología y ráfagas rápidas de actividad. Anthropic advierte que los resultados del modelo podrían alucinar credenciales o hallazgos, por lo que los resultados deben ser validados. El informe recomienda detección consciente del modelo, análisis de anomalías para solicitudes en ráfaga y controles de autenticación más estrictos en el uso de herramientas.
Q ¿Quién se cree que está detrás de la operación y cuáles son las implicaciones políticas?
A Anthropic atribuye la operación, con alta confianza, a GTG‑1002, un grupo patrocinado por el estado chino. El episodio se ha convertido en un punto de referencia para los responsables políticos: los legisladores debaten la responsabilidad por el uso indebido de los modelos, consideran normas para la IA de doble uso y discuten sanciones o presión internacional cuando la atribución implica a actores estatales.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!