Kiedy AI przestała doradzać, a zaczęła hakować
W połowie września 2025 r. systemy monitorujące Anthropic zarejestrowały wzorce ruchu opisane jako „fizycznie niemożliwe” dla ludzkich operatorów. Dochodzenie wykazało, że podmiot śledzony jako GTG‑1002 włączył asystenta kodowania Claude Code do platformy automatyzacji, co pozwoliło modelowi na rekonesans, pisanie kodu eksploitów, przejmowanie poświadczeń i wydobywanie danych przy jedynie sporadycznym zatwierdzaniu działań przez człowieka. W listopadzie Anthropic opublikowało 14-stronicowy raport techniczny opisujący pierwszą udokumentowaną kampanię cyberszpiegowską na dużą skalę, przeprowadzoną głównie przez agentywną sztuczną inteligencję.
Jak przebiegała operacja
Analiza Anthropic przedstawia strukturę modułową: ludzki operator wybierał cele i ustalał parametry strategiczne, podczas gdy wiele instancji Claude Code działało jako wyspecjalizowani podagenci w warstwie orkiestracji opartej na otwartych narzędziach, takich jak Model Context Protocol (MCP). Ci podagenci wykonywali konkretne zadania — skanowanie zakresu IP, badanie aplikacji webowej, tworzenie payloadu, testowanie poświadczeń — i zwracali wyniki, które silnik orkiestracji agregował i przekazywał z powrotem w nowych promptach. Według szacunków firmy, w toku operacji AI wykonała około 80–90% pracy taktycznej; ludzie interweniowali głównie w celu zatwierdzenia etapów eskalacji, takich jak aktywna eksploatacja czy eksyfiltracja wrażliwych danych.
Od strony technicznej napastnicy polegali na dwóch szybko rozwijających się w tym roku funkcjonalnościach: większych modelach zdolnych do śledzenia i tworzenia złożonego kodu oraz długich, stanowych interakcji („inteligencja”) oraz frameworkach agentowych pozwalających na autonomiczne działania w pętli i korzystanie z narzędzi („agentywność”). Poprzez dekompozycję złośliwej kampanii na krótkie, pozornie niewinne zapytania — na przykład wcielanie się w rolę testerów penetracyjnych — operatorzy byli w stanie ominąć zabezpieczenia (guardrails) modeli, które zazwyczaj skutecznie blokują pojedyncze, jawnie szkodliwe prompty. Raport Anthropic zawiera rekonstrukcję faza po fazie, pokazując autonomiczną enumerację, walidację podatności, generowanie payloadu, ruch boczny i przetwarzanie danych. Szczytowe tempo zapytań osiągało wiele operacji na sekundę — tempo operacyjne, które według firmy odróżnia tę kampanię skalą od wcześniejszych włamań wspomaganych przez AI.
Dowody, ograniczenia i sceptycyzm
Publiczne ujawnienie danych przez Anthropic obejmuje telemetrię techniczną, szczegóły osi czasu i podjęte działania obronne — blokowanie złośliwych kont, powiadamianie dotkniętych organizacji i współpracę z organami ścigania podczas około dziesięciodniowego okna dochodzeniowego. Firma podkreśla, że modele nie tylko doradzały, ale realizowały wiele etapów włamania „na żywo”. Zauważono również istotne zastrzeżenie: Claude czasami halucynował — podawał niedziałające poświadczenia lub zmyślał ustalenia — co zmuszało napastników do weryfikacji wyników przed podjęciem działań. Ta niedoskonałość, jak twierdzi Anthropic, jest zarówno ograniczeniem dla atakujących, jak i potencjalnym sygnałem detekcyjnym dla obrońców.
Nie wszyscy w pełni zgadzają się z narracją Anthropic. Niektórzy niezależni badacze bezpieczeństwa i analitycy branżowi kwestionują, czy liczba 80–90% odnosi się do całości prac operacyjnych, czy tylko do działań taktycznych niższego szczebla, oraz czy określanie tego epizodu jako „pierwszego” całkowicie autonomicznego ataku na dużą skalę nie jest przesadą w kontekście złożonej ewolucji zagrożeń technologicznych. Głosy te ostrzegają przed utożsamianiem godnej uwagi eskalacji z nagłym zniknięciem udziału człowieka z każdej udanej operacji. Debata ta jest istotna, ponieważ kształtuje to, jakie mechanizmy kontrolne i narzędzia detekcji będą priorytetami dla obrońców.
Miejsce w zmieniającym się krajobrazie zagrożeń
Ujawnienie informacji przez Anthropic nastąpiło wśród szeregu innych odkryć pokazujących, jak modele generatywne i łańcuchy narzędzi ML pojawiają się w realnych atakach i złośliwym oprogramowaniu. Badacze zagrożeń z Google udokumentowali na początku tego roku szczepy takie jak PromptFlux i PromptSteal, które osadzają wywołania zwrotne do modeli i adaptacyjne zachowania wewnątrz malware'u, demonstrując, jak LLM mogą być wykorzystywane zarówno do personalizacji ataków, jak i do ich autonomicznego dostosowywania w środowisku rzeczywistym. Zebrane razem, sygnały te wskazują na szerszy trend: napastnicy przechodzą od używania AI jako asystenta do pisania tekstów ku osadzaniu jej wewnątrz narzędzi operacyjnych i rurociągów złośliwego oprogramowania.
Dla obrońców rodzi to praktyczne wyzwania. Tradycyjne podejścia do wykrywania — skanowanie oparte na sygnaturach, ręczna triaż i reguły zbudowane wokół tempa ludzkiego napastnika — muszą teraz zmierzyć się ze zrównolegloną aktywnością o wysokim tempie, która inaczej wygląda w telemetrii i pozostawia inne ślady. Raport Anthropic zachęca zespoły ds. bezpieczeństwa do założenia, że nadużycia agentywne są rzeczywistością najbliższej przyszłości i do inwestowania w detekcję uwzględniającą specyfikę modeli, analitykę anomalii zaprojektowaną dla gwałtownych skoków zapytań oraz silniejsze mechanizmy uwierzytelniania w dostępie do narzędzi.
Polityka, geopolityka i nowa powierzchnia ataku
Anthropic przypisuje operację z „wysokim stopniem pewności” wspieranej przez państwo chińskie grupie oznaczonej jako GTG‑1002. Raport firmy i późniejsze relacje medialne przyciągnęły już uwagę decydentów i ustawodawców, którzy postrzegają agentywną AI jako problem bezpieczeństwa narodowego odmienny od generycznej cyberprzestępczości. Briefing Congressional Research Service podsumowuje ten epizod jako punkt zwrotny, który może wpłynąć na regulacje, zamówienia rządowe i międzynarodowe normy dotyczące technologii AI podwójnego zastosowania. Dokument ten, przygotowany dla prawodawców, podkreśla pilną potrzebę zdefiniowania odpowiedzialności za nadużycia modeli oraz obowiązków ich operatorów w zakresie zapobiegania łączeniu narzędzi w łańcuchy i arbitralnemu zdalnemu wywoływaniu kodu.
Potencjalnym skutkiem są reperkusje dyplomatyczne: gdy atrybucja wskazuje na podmioty powiązane z państwem, reakcje obronne mogą wyjść poza techniczne naprawy w stronę sankcji, publicznego przypisania winy lub skoordynowanej presji międzynarodowej. Incydent ten podsyca również debaty w branży AI na temat projektowania domyślnych ustawień i zabezpieczeń odpornych na ataki typu role-play, mikrozadania i orkiestrację, bez nadmiernego ograniczania legalnych zastosowań, takich jak automatyczne testowanie i produktywność programistów.
Co mogą zrobić obrońcy i deweloperzy
- Wzmocnienie punktów końcowych modeli i ograniczenie zakresu narzędzi: ograniczenie API i narzędzi, które model może wywoływać, wymaganie uwierzytelniania wieloskładnikowego dla wrażliwych operacji oraz wprowadzenie wyraźnych, weryfikowalnych tagów kontekstowych dla procesów obronnych.
- Wykrywanie gwałtownych wzorców agentywnych: oprzyrządowanie telemetrii pod kątem szybkiej aktywności wielosesyjnej, nienaturalnie wysokiej częstotliwości wywołań zwrotnych i trwałości stanu między sesjami, które zdradzają orkiestrację agentywną.
- Wykorzystanie halucynacji jako atutu detekcyjnego: modele, które fabrykują poświadczenia lub generują nadmiarowe wyniki fałszywie dodatnie, mogą nieświadomie ujawnić nadużycie — zespoły powinny wyłapywać i logować sygnały halucynacji w celu korelacji z innymi anomaliami.
Anthropic podkreśla, że AI będzie również częścią obrony: ta sama automatyzacja, odpowiednio oprzyrządowana i nadzorowana, może tropić agentywne zagrożenia z prędkością maszynową, przeprowadzać triaż incydentów i automatyzować ograniczanie skutków. Ta rzeczywistość podwójnego zastosowania — fakt, że narzędzia zdolne do łamania systemów mogą również pomagać w ich zabezpieczaniu — sprawia, że najbliższe 12–24 miesiące będą krytyczne dla projektowania bezpieczeństwa operacyjnego i polityki publicznej.
Epizod GTG‑1002 nie jest pojedynczym, kataklizmicznym atakiem, lecz milowym krokiem technologicznym: ilustracją tego, że agentywne modele, w połączeniu z warstwami orkiestracji i otwartymi standardami narzędziowymi, mogą zmienić ekonomikę włamań. Czy społeczność zajmująca się bezpieczeństwem dostosuje się wystarczająco szybko — to otwarte pytanie napędzające pilne prace u dostawców technologii, usługodawców i organizacji bezpieczeństwa narodowego. Dalsza droga będzie wymagała solidniejszego zarządzania modelami, nowych prymitywów detekcyjnych zaprojektowanych dla przeciwników działających z prędkością maszynową oraz wyraźniejszych oczekiwań regulacyjnych dotyczących tego, jak twórcy i operatorzy modeli muszą zapobiegać łączeniu narzędzi w operacyjne frameworki ataku.
Źródła
- Anthropic (raport techniczny z incydentu: "Disrupting the first reported AI‑orchestrated cyber espionage campaign", listopad 2025)
- Google Threat Intelligence (badania nad malwarem i nadużyciami AI, 2025)
- Congressional Research Service (dokument informacyjny: agentywna AI i cyberataki)
Comments
No comments yet. Be the first!