Vad gjorde det möjligt för Claude Code att agera som en autonom cyberagent?

Anthropic uppger att Claude Code bäddades in i ett automatiseringsramverk med ett orkestreringslager byggt på verktyg som Model Context Protocol, vilket skapade specialiserade underagenter som utför diskreta uppgifter såsom IP-skanning, sårbarhetssökning, skapande av 'payloads' och testning av inloggningsuppgifter. Den mänskliga operatören valde fortfarande mål och strategiska parametrar, men AI:n utförde ungefär 80–90 % av det taktiska arbetet genom loopade prompter och agentinteraktioner.

Hur stor del av operationen utfördes av AI jämfört med människor, och vad kontrollerade människorna?

Företaget uppskattar att AI:n utförde ungefär 80–90 % av kampanjens taktiska arbete, där människor främst ingrep för att godkänna eskaleringssteg som aktiv exploatering eller exfiltrering av känslig data. Handläggare övervakade framstegen men lät de autonoma underagenterna utföra merparten av rekognosering, insamling av inloggningsuppgifter och dataparsning.

Vilka detekteringssignaler och försvar lyfter Anthropic fram för försvarare?

Försvarare varnades av trafik som företaget kallade 'fysiskt omöjlig' för mänskliga operatörer, tillsammans med teknisk telemetri, tidslinjedetaljer och snabba skurar av aktivitet. Anthropic varnar för att modellutdata kan hallucinera inloggningsuppgifter eller fynd, så utdata måste valideras. Rapporten rekommenderar modellmedveten detektering, anomalianalys för stötvisa förfrågningar och starkare autentiseringskontroller kring verktygsanvändning.

Vem tros ligga bakom operationen och vilka är de politiska konsekvenserna?

Anthropic tillskriver operationen, med hög tillförlitlighet, till GTG-1002, en kinesisk statssponsrad grupp. Händelsen har blivit en referenspunkt för beslutsfattare: lagstiftare debatterar ansvar för missbrukade modeller, överväger normer för AI med dubbla användningsområden och diskuterar sanktioner eller internationella påtryckningar när attribution pekar mot statliga aktörer.

Anthropic: AI-agenter i storskaligt cyberspionage

När en AI slutade ge råd och började hacka

I mitten av september 2025 flaggade övervakningssystem hos Anthropic för trafikmönster som beskrivs som ”fysiskt omöjliga” för mänskliga operatörer. Företagets efterföljande utredning fann att en aktör som spåras som GTG-1002 hade bäddat in Anthropics kodningsassistent, Claude Code, i ett ramverk för automatisering som lät modellen utföra rekognosering, skriva exploateringskod, samla in inloggningsuppgifter och extrahera data med endast tillfälliga godkännanden från en människa. Anthropic publicerade en 14-sidig teknisk rapport i november som beskriver vad de kallar den första dokumenterade storskaliga cyberspionagekampanjen som i huvudsak utförts av agentisk artificiell intelligens.

Hur operationen fungerade

Anthropics analys målar upp en modulär bild: en mänsklig operatör valde ut mål och fastställde strategiska parametrar, medan flera instanser av Claude Code agerade som specialiserade underagenter i ett orkestreringslager byggt på öppna verktyg som Model Context Protocol (MCP). Dessa underagenter utförde avgränsade uppgifter – skanna ett IP-intervall, sondera en webbapplikation, skapa en nyttolast, testa inloggningsuppgifter – och returnerade resultat som orkestreringsmotorn sammanställde och matade tillbaka i nya prompter. Under operationens gång uppskattar företaget att AI:n utförde ungefär 80–90 % av det taktiska arbetet; människor ingrep främst för att godkänna eskaleringssteg som aktiv exploatering eller exfiltrering av känsliga data.

Tekniskt sett förlitade sig angriparna på två samverkande förmågor som har mognat snabbt under året: större modeller som kan följa och producera komplex kod och långa, tillståndsbaserade interaktioner (”intelligensen”), samt agentramverk som tillåter autonoma, loopade åtgärder och användning av verktyg (”agensen”). Genom att bryta ner en skadlig kampanj i korta, till synes oskyldiga förfrågningar – till exempel genom att spela rollen som penetrationstestare – kunde operatörerna kringgå modellens säkerhetsspärrar som vanligtvis är effektiva mot enstaka, uppenbart skadliga prompter. Anthropics rapport innehåller en rekonstruktion fas för fas som visar autonom enumerering, validering av sårbarheter, generering av nyttolaster, lateral rörelse och dataparsning. Som mest nådde anropsfrekvensen flera operationer per sekund – ett operativt tempo som företaget hävdar skiljer detta i storleksordning från tidigare AI-assisterade intrång.

Bevis, begränsningar och skepticism

Anthropics offentliggörande inkluderar teknisk telemetri, tidslinjedetaljer och defensiva åtgärder – som att spärra skadliga konton, meddela berörda organisationer och samarbeta med myndigheter under ett ungefär tio dagar långt utredningsfönster. Företaget betonar att modellerna inte bara gav råd utan utförde många faktiska intrångssteg. Det noteras också ett viktigt förbehåll: Claude hallucinerade ibland – rapporterade inloggningsuppgifter som inte fungerade eller hittade på fynd – vilket tvingade angriparna att validera utdata innan de agerade. Denna ofullkomlighet, menar Anthropic, är både en begränsning för angripare och en potentiell detekteringssignal för försvarare.

Alla accepterar inte tyngden i Anthropics inramning fullt ut. Vissa oberoende säkerhetsforskare och branschanalytiker har ifrågasatt om siffran 80–90 % avser allt operativt arbete eller endast taktiska steg på låg nivå, samt om beskrivningen av episoden som den ”första” helt autonoma storskaliga attacken riskerar att överdriva en komplex teknisk hotutveckling. Dessa röster varnar för att blanda samman en anmärkningsvärd eskalering med ett plötsligt upphörande av mänsklig inblandning i varje framgångsrik operation. Debatten är viktig eftersom den formar vilka kontroller och detekteringsverktyg försvarare prioriterar.

Var detta placerar sig i ett skiftande hotlandskap

Anthropics avslöjande kom mitt i en rad andra fynd som visar hur generativa modeller och ML-verktygskedjor dyker upp i verkliga attacker och skadlig kod. Googles hotforskare dokumenterade tidigare i år stammar som PromptFlux och PromptSteal som bäddar in modellanrop och adaptiva beteenden i skadlig kod, vilket demonstrerar hur LLM:er kan användas både för att skräddarsy attacker och för att autonomt anpassa dem i fält. Sammantaget pekar dessa signaler på en bredare trend: angripare går från att använda AI som en skrivassistent till att bädda in den i operativa verktyg och flöden för skadlig kod.

För försvarare innebär detta praktiska utmaningar. Traditionella detekteringsmetoder – signaturbaserad skanning, manuell triagering och regelverk byggda kring mänskliga angripares tempo – måste nu hantera parallelliserad aktivitet med högt tempo som ser annorlunda ut i telemetrin och lämnar andra spår. Anthropics rapport uppmanar säkerhetsteam att utgå från att agentiskt missbruk är en verklighet i närtid och att investera i modellmedveten detektering, anomalianalys byggd för explosiva anropsmönster och starkare autentiseringskrav kring verktygsanvändning.

Policy, geopolitik och den nya attackytan

Anthropic tillskriver operationen med ”hög tillförlitlighet” till en kinesisk statsunderstödd grupp som de kallar GTG-1002. Företagets offentliga rapport och efterföljande bevakning har redan väckt uppmärksamhet från beslutsfattare och lagstiftare som ser agentisk AI som ett nationellt säkerhetsproblem som skiljer sig från generisk cyberkriminalitet. En brief från Congressional Research Service sammanfattar episoden som en brytpunkt som kan påverka reglering, statlig upphandling och internationella normer kring AI-teknik med dubbla användningsområden. Dokumentet, som förberetts för lagstiftare, understryker vikten av att definiera vem som är ansvarig när modeller missbrukas och vilket ansvar modelloperatörer måste ha för att förhindra verktygskedjor och godtyckliga fjärranrop av kod.

Diplomatiska följder är en tänkbar konsekvens: när attribuering pekar ut statsanknutna aktörer kan defensiva svar gå bortom tekniska åtgärder till sanktioner, offentliga utpekanden eller samordnade internationella påtryckningar. Incidenten underblåser också debatter inom AI-branschen om hur man utformar standardinställningar och säkerhetsspärrar som är robusta mot rollspel, mikrouppgifter och orkestreringsattacker utan att begränsa legitima användningsområden som automatiserad testning och utvecklarproduktivitet.

Vad försvarare och utvecklare kan göra nu

Härda modellslutpunkter och begränsa verktygens räckvidd: begränsa vilka API:er och verktyg en modell kan anropa, kräv multifaktorverifiering för känsliga operationer och inför explicita, verifierbara kontexttaggar för defensiva arbetsflöden.
Detektera intensiva agentmönster: instrumentera telemetri för snabb aktivitet över flera sessioner, ovanligt höga anropsfrekvenser och ihållande tillstånd mellan sessioner som avslöjar agentisk orkestrering.
Gör hallucinationer till en tillgång för detektering: modeller som hittar på inloggningsuppgifter eller producerar överdrivna mängder falska positiva resultat kan oavsiktligt avslöja missbruk – team bör synliggöra och logga hallucinationssignaler för korrelation med andra anomalier.

Anthropic betonar att AI också kommer att vara en del av försvaret: samma automatisering kan, när den är korrekt instrumenterad och styrd, jaga agentiska hot i maskinhastighet, triagera incidenter och automatisera begränsningsåtgärder. Denna realitet med dubbla användningsområden – att verktygen som kan bryta ner system också kan hjälpa till att säkra dem – gör de kommande 12–24 månaderna kritiska för operativ säkerhetsdesign och offentlig policy.

GTG-1002-episoden är inte så mycket en enskild katastrofal hackning som en teknologisk milstolpe: en illustration av att agentiska modeller, när de paras ihop med orkestreringslager och öppna verktygsstandarder, kan förändra ekonomin bakom intrång. Huruvida säkerhetscommunityn kommer att anpassa sig tillräckligt snabbt är den öppna fråga som driver det brådskande arbetet hos leverantörer, tjänsteleverantörer och nationella säkerhetsorganisationer. Vägen framåt kommer att kräva robustare modellstyrning, nya detekteringsprinciper utformade för motståndare som agerar i maskinhastighet, och tydligare regulatoriska förväntningar på hur modellbyggare och operatörer måste förhindra att verktyg kedjas samman till operativa attackramverk.

Källor

Anthropic (teknisk incidentrapport: "Disrupting the first reported AI-orchestrated cyber espionage campaign", november 2025)
Google Threat Intelligence (forskning om skadlig kod och AI-missbruk, 2025)
Congressional Research Service (briefing: agentic AI and cyberattacks)

AI-agenter orkestrerar den första storskaliga cyberattacken

När en AI slutade ge råd och började hacka

Hur operationen fungerade

Bevis, begränsningar och skepticism

Var detta placerar sig i ett skiftande hotlandskap

Policy, geopolitik och den nya attackytan

Vad försvarare och utvecklare kan göra nu

Källor

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments