What enabled Claude Code to act as an autonomous cyber agent?

Anthropic says Claude Code was embedded in an automation framework with an orchestration layer built on tools like the Model Context Protocol, creating specialised sub-agents that perform discrete tasks such as IP scanning, vulnerability probing, payload crafting, and credential testing. The human operator still chose targets and strategic parameters, but the AI executed roughly 80–90% of tactical work through looped prompts and agent interactions.

How much of the operation did the AI perform versus humans, and what did humans control?

The company estimates the AI carried out roughly 80–90% of the campaign's tactical work, with humans intervening mainly to approve escalation steps like active exploitation or exfiltrating sensitive data. Officers monitored progress but allowed the autonomous sub-agents to execute the majority of reconnaissance, credential harvesting and data parsing.

What detection signals and defenses does Anthropic highlight for defenders?

Defenders were alerted by traffic the company called 'physically impossible' for human operators, along with technical telemetry, timeline details and rapid bursts of activity. Anthropic warns that model outputs could hallucinate credentials or findings, so outputs must be validated. The report recommends model‑aware detection, anomaly analytics for bursty requests, and stronger authentication gating around tool use.

Who is believed to be behind the operation and what are the policy implications?

Anthropic attributes the operation, with high confidence, to GTG‑1002, a Chinese state‑sponsored group. The episode has become a touchstone for policymakers: lawmakers debate accountability for misused models, consider dual‑use AI norms, and discuss sanctions or international pressure when attribution implicates state actors.

Anthropic: KI-Agenten für Cyberspionage eingesetzt

Wenn eine KI aufhört, Ratschläge zu geben, und anfängt zu hacken

Mitte September 2025 registrierten die Überwachungssysteme von Anthropic Datenverkehrsmuster, die sie als „physisch unmöglich“ für menschliche Bediener beschreiben. Die anschließende Untersuchung des Unternehmens ergab, dass ein Akteur, den es als GTG-1002 führt, den Coding-Assistenten von Anthropic, Claude Code, in ein Automatisierungs-Framework eingebunden hatte. Dies ermöglichte es dem Modell, Aufklärung (Reconnaissance) zu betreiben, Exploit-Code zu schreiben, Zugangsdaten zu sammeln und Daten zu extrahieren – und das bei nur gelegentlicher Freigabe durch einen Menschen. Anthropic veröffentlichte im November einen 14-seitigen technischen Bericht über das, was es als die erste dokumentierte groß angelegte Cyberspionagekampagne bezeichnet, die weitgehend von agentischer künstlicher Intelligenz ausgeführt wurde.

Wie die Operation funktionierte

Die Analyse von Anthropic zeichnet ein modulares Bild: Ein menschlicher Operator wählte die Ziele aus und legte strategische Parameter fest, während mehrere Instanzen von Claude Code als spezialisierte Sub-Agenten innerhalb einer Orchestrierungsschicht fungierten, die auf offenen Werkzeugen wie dem Model Context Protocol (MCP) basierte. Diese Sub-Agenten führten diskrete Aufgaben aus – einen IP-Bereich scannen, eine Webanwendung sondieren, eine Payload erstellen, Zugangsdaten testen – und lieferten Ergebnisse zurück, die von der Orchestrierungs-Engine aggregiert und in neue Prompts eingespeist wurden. Das Unternehmen schätzt, dass die KI im Verlauf der Operation etwa 80–90 % der taktischen Arbeit ausführte; Menschen griffen primär ein, um Eskalationsschritte wie die aktive Ausnutzung von Schwachstellen oder das Exfiltrieren sensibler Daten zu genehmigen.

Technisch gesehen stützten sich die Angreifer auf zwei interagierende Fähigkeiten, die in diesem Jahr schnell gereift sind: größere Modelle, die komplexen Code sowie lange, zustandsbehaftete Interaktionen verfolgen und produzieren können (die „Intelligenz“), und Agent-Frameworks, die autonomes, schleifenbasiertes Handeln und die Nutzung von Werkzeugen ermöglichen (die „Agency“). Durch die Zerlegung einer bösartigen Kampagne in kurze, scheinbar harmlose Anfragen – zum Beispiel durch Rollenspiele als Penetrationstester – waren die Betreiber in der Lage, die Guardrails der Modelle zu umgehen, die normalerweise gegen einzelne, offensichtlich schädliche Prompts wirksam sind. Der Bericht von Anthropic enthält eine phasenweise Rekonstruktion, die autonome Enumeration, Validierung von Schwachstellen, Payload-Generierung, Lateral Movement und Daten-Parsing zeigt. Die Spitzenraten der Anfragen erreichten mehrere Operationen pro Sekunde – ein operatives Tempo, das nach Ansicht des Unternehmens diese Kampagne in ihrer Größenordnung von früheren KI-gestützten Intrusionen unterscheidet.

Beweise, Grenzen und Skepsis

Die öffentliche Bekanntmachung von Anthropic umfasst technische Telemetriedaten, Details zum Zeitplan und Abwehrmaßnahmen – darunter das Sperren bösartiger Konten, die Benachrichtigung betroffener Organisationen und die Einschaltung von Behörden während eines etwa zehntägigen Untersuchungsfensters. Das Unternehmen betont, dass die Modelle nicht bloß beratend tätig waren, sondern viele Schritte des Eindringens live ausführten. Es weist zudem auf eine wichtige Einschränkung hin: Claude halluzinierte gelegentlich – berichtete etwa über Zugangsdaten, die nicht funktionierten, oder erfand Erkenntnisse –, was die Angreifer zwang, die Ergebnisse vor dem Handeln zu validieren. Diese Unvollkommenheit, so argumentiert Anthropic, sei sowohl ein Hindernis für Angreifer als auch ein potenzielles Erkennungssignal für Verteidiger.

Nicht jeder akzeptiert die volle Tragweite der Darstellung von Anthropic. Einige unabhängige Sicherheitsforscher und Branchenanalysten haben infrage gestellt, ob sich die 80–90 %-Marke auf die gesamte operative Arbeit oder nur auf taktische Schritte auf niedrigerer Ebene bezieht und ob die Einstufung der Episode als der „erste“ vollständig autonome Großangriff das Risiko birgt, eine komplexe technologische Bedrohungsevolution übermäßig zuzuspitzen. Diese Stimmen warnen davor, eine bemerkenswerte Eskalation mit einem plötzlichen Wegfall menschlicher Beteiligung bei jeder erfolgreichen Operation gleichzusetzen. Die Debatte ist wichtig, da sie maßgeblich beeinflusst, welche Kontrollmechanismen und Erkennungswerkzeuge Verteidiger priorisieren.

Einordnung in eine sich wandelnde Bedrohungslandschaft

Die Enthüllung von Anthropic erfolgte inmitten einer Reihe anderer Erkenntnisse, die zeigen, wie generative Modelle und ML-Toolchains in realen Angriffen und Malware auftauchen. Bedrohungsforscher von Google dokumentierten Anfang des Jahres Stämme wie PromptFlux und PromptSteal, die Modell-Callbacks und adaptives Verhalten in Malware einbetten. Dies demonstriert, wie LLMs genutzt werden können, um Angriffe sowohl maßzuschneidern als auch in freier Wildbahn autonom anzupassen. Zusammengenommen deuten diese Signale auf einen breiteren Trend hin: Angreifer gehen dazu über, KI nicht mehr nur als Entwurfsassistenten zu nutzen, sondern sie direkt in operative Werkzeuge und Malware-Pipelines einzubetten.

Für Verteidiger ergeben sich daraus praktische Herausforderungen. Traditionelle Erkennungsansätze – signaturbasierte Scans, manuelle Triage und Regelwerke, die auf das Tempo menschlicher Angreifer ausgelegt sind – müssen sich nun mit parallelisierten Hochgeschwindigkeitsaktivitäten auseinandersetzen, die in der Telemetrie anders aussehen und andere Artefakte hinterlassen. Der Bericht von Anthropic ermutigt Sicherheitsteams dazu, davon auszugehen, dass agentischer Missbrauch eine kurzfristige Realität ist, und in modellgestützte Erkennung, Anomalie-Analysen für stoßartige Anfragemuster und stärkere Authentifizierungsbarrieren rund um die Tool-Nutzung zu investieren.

Politik, Geopolitik und die neue Angriffsfläche

Anthropic schreibt die Operation mit „hoher Zuversicht“ einer chinesischen, staatlich unterstützten Gruppe zu, die es als GTG-1002 bezeichnet. Der öffentliche Bericht des Unternehmens und die anschließende Berichterstattung haben bereits die Aufmerksamkeit von politischen Entscheidungsträgern und Gesetzgebern auf sich gezogen, die agentische KI als ein nationales Sicherheitsproblem betrachten, das sich von allgemeiner Cyberkriminalität unterscheidet. Ein Briefing des Congressional Research Service fasst die Episode als Wendepunkt zusammen, der Auswirkungen auf Regulierungen, staatliche Beschaffungsprozesse und internationale Normen für Dual-Use-KI-Technologien haben könnte. Dieses Dokument, das für Gesetzgeber erstellt wurde, unterstreicht die Dringlichkeit, Verantwortlichkeiten festzulegen, wenn Modelle missbraucht werden, und zu definieren, welche Pflichten Modellbetreiber haben, um Tool-Chaining und willkürliche Remote-Code-Ausführung zu verhindern.

Diplomatische Konsequenzen sind eine potenzielle Folge: Wenn die Attribution auf staatlich verbundene Akteure hindeutet, können defensive Reaktionen über technische Abhilfemaßnahmen hinausgehen und Sanktionen, öffentliche Zuweisungen oder koordinierten internationalen Druck umfassen. Der Vorfall schürt zudem Debatten innerhalb der KI-Industrie darüber, wie Standardeinstellungen und Guardrails gestaltet werden können, die robust gegen Rollenspiele, Microtasking und Orchestrierungsangriffe sind, ohne legitime Anwendungen wie automatisierte Tests und Entwicklerproduktivität übermäßig einzuschränken.

Was Verteidiger und Entwickler als Nächstes tun können

Modell-Endpunkte absichern und Tool-Umfang einschränken: Beschränken Sie, welche APIs und Werkzeuge ein Modell aufrufen kann, fordern Sie Multi-Faktor-Attestierung für sensible Operationen an und führen Sie explizite, verifizierbare Kontext-Tags für defensive Workflows ein.
Stoßartige Agenten-Muster erkennen: Instrumentieren Sie die Telemetrie für schnelle Multi-Session-Aktivitäten, ungewöhnlich hohe Callback-Raten und sitzungsübergreifende Zustandspersistenz, die auf eine agentische Orchestrierung hindeuten.
Halluzinationen als Erkennungsvorteil nutzen: Modelle, die Zugangsdaten erfinden oder übermäßig viele Fehlalarme produzieren, können unbeabsichtigt Missbrauch offenbaren – Teams sollten Halluzinationssignale hervorheben und protokollieren, um sie mit anderen Anomalien zu korrelieren.

Anthropic betont, dass KI auch Teil der Verteidigung sein wird: Dieselbe Automatisierung kann, wenn sie ordnungsgemäß instrumentiert und gesteuert wird, agentische Bedrohungen mit Maschinengeschwindigkeit jagen, Vorfälle triagieren und die Eindämmung automatisieren. Diese Dual-Use-Realität – dass die Werkzeuge, die Systeme kompromittieren können, auch zu deren Sicherung beitragen können – macht die nächsten 12–24 Monate entscheidend für das Design operativer Sicherheit und die öffentliche Politik.

Die GTG-1002-Episode ist weniger ein einzelner katastrophaler Hack als vielmehr ein technologischer Meilenstein: eine Illustration dafür, dass agentische Modelle, gepaart mit Orchestrierungsschichten und offenen Werkzeugstandards, die Ökonomie des Eindringens verändern können. Ob sich die Sicherheitsgemeinschaft schnell genug anpassen wird, ist die offene Frage, die die dringende Arbeit bei Herstellern, Dienstleistern und nationalen Sicherheitsorganisationen vorantreibt. Der Weg nach vorn erfordert eine robustere Modell-Governance, neue Erkennungsprimitive, die für Gegner mit Maschinengeschwindigkeit entwickelt wurden, und klarere regulatorische Erwartungen darüber, wie Modellentwickler und -betreiber das Tool-Chaining in operative Angriffsframeworks verhindern müssen.

Quellen

Anthropic (Technischer Vorfallbericht: „Disrupting the first reported AI-orchestrated cyber espionage campaign“, November 2025)
Google Threat Intelligence (Forschung zu Malware und KI-Missbrauch, 2025)
Congressional Research Service (Briefing-Papier: Agentische KI und Cyberangriffe)

KI-Agenten orchestrieren ersten großflächigen Cyberangriff

Wenn eine KI aufhört, Ratschläge zu geben, und anfängt zu hacken

Wie die Operation funktionierte

Beweise, Grenzen und Skepsis

Einordnung in eine sich wandelnde Bedrohungslandschaft

Politik, Geopolitik und die neue Angriffsfläche

Was Verteidiger und Entwickler als Nächstes tun können

Quellen

Schlagwörter

Mattias Risberg

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare