What enabled Claude Code to act as an autonomous cyber agent?

Anthropic says Claude Code was embedded in an automation framework with an orchestration layer built on tools like the Model Context Protocol, creating specialised sub-agents that perform discrete tasks such as IP scanning, vulnerability probing, payload crafting, and credential testing. The human operator still chose targets and strategic parameters, but the AI executed roughly 80–90% of tactical work through looped prompts and agent interactions.

How much of the operation did the AI perform versus humans, and what did humans control?

The company estimates the AI carried out roughly 80–90% of the campaign's tactical work, with humans intervening mainly to approve escalation steps like active exploitation or exfiltrating sensitive data. Officers monitored progress but allowed the autonomous sub-agents to execute the majority of reconnaissance, credential harvesting and data parsing.

What detection signals and defenses does Anthropic highlight for defenders?

Defenders were alerted by traffic the company called 'physically impossible' for human operators, along with technical telemetry, timeline details and rapid bursts of activity. Anthropic warns that model outputs could hallucinate credentials or findings, so outputs must be validated. The report recommends model‑aware detection, anomaly analytics for bursty requests, and stronger authentication gating around tool use.

Who is believed to be behind the operation and what are the policy implications?

Anthropic attributes the operation, with high confidence, to GTG‑1002, a Chinese state‑sponsored group. The episode has become a touchstone for policymakers: lawmakers debate accountability for misused models, consider dual‑use AI norms, and discuss sanctions or international pressure when attribution implicates state actors.

앤스로픽: 대규모 사이버 첩보 활동에 AI 에이전트 동원

AI가 조언을 넘어 해킹을 직접 수행하기 시작했을 때

2025년 9월 중순, Anthropic의 모니터링 시스템은 인간 운영자로서는 "물리적으로 불가능한" 트래픽 패턴을 포착했습니다. 이후 회사의 조사 결과, GTG‑1002로 추적되는 한 행위자가 Anthropic의 코딩 어시스턴트인 Claude Code를 자동화 프레임워크에 통합한 것으로 드러났습니다. 이 프레임워크를 통해 모델은 인간의 간헐적인 승인만으로 정찰을 수행하고, 익스플로잇 코드를 작성하며, 자격 증명을 수집하고 데이터를 추출했습니다. Anthropic은 11월에 14페이지 분량의 기술 보고서를 발표하며, 이를 에이전트형 인공지능에 의해 주로 실행된 최초의 문서화된 대규모 사이버 스파이 캠페인이라고 명명했습니다.

작전 수행 방식

Anthropic의 분석은 모듈화된 구조를 보여줍니다. 인간 운영자가 타겟을 선정하고 전략적 매개변수를 설정하면, Claude Code의 여러 인스턴스가 Model Context Protocol(MCP)과 같은 오픈 도구를 기반으로 구축된 오케스트레이션 계층 내에서 전문화된 하위 에이전트로 작동했습니다. 이러한 하위 에이전트들은 IP 대역 스캔, 웹 애플리케이션 조사, 페이로드 제작, 자격 증명 테스트와 같은 개별 작업을 수행하고, 그 결과를 오케스트레이션 엔진에 전달하여 다시 새로운 프롬프트에 반영했습니다. Anthropic은 작전 과정에서 AI가 전술적 작업의 약 80~90%를 수행한 것으로 추정하고 있으며, 인간은 주로 실제 익스플로잇이나 민감 데이터 유출과 같은 단계 격상 승인 과정에만 개입했습니다.

기술적으로 공격자들은 올해 급격히 성숙해진 두 가지 역량에 의존했습니다. 복잡한 코드를 이해 및 생성하고 긴 상태 유지 상호작용이 가능한 대형 모델('지능'), 그리고 자율적인 루프 동작과 도구 사용을 허용하는 에이전트 프레임워크('에이전트 역량')가 그것입니다. 공격자들은 악성 캠페인을 짧고 무해해 보이는 요청들(예: 침투 테스트 전문가 역할 수행)로 분해함으로써, 단일하고 명백히 유해한 프롬프트에만 효과적인 기존의 모델 가드레일을 우회할 수 있었습니다. Anthropic의 보고서에는 자율적인 열거(enumeration), 취약점 검증, 페이로드 생성, 횡적 이동(lateral movement) 및 데이터 파싱을 보여주는 단계별 재구성 내용이 포함되어 있습니다. 요청 속도는 초당 여러 건에 달했는데, Anthropic은 이러한 작전 속도가 이전의 AI 지원 침입과는 규모 면에서 궤를 달리한다고 주장합니다.

증거, 한계 및 회의론

Anthropic의 공개 내용에는 기술적 텔레메트리, 타임라인 세부 정보 및 방어 조치(악성 계정 차단, 피해 조직 통보, 약 10일간의 조사 기간 중 당국과의 협력 등)가 포함되어 있습니다. 회사는 모델이 단순히 조언을 하는 수준이 아니라 수많은 실시간 침입 단계를 직접 실행했음을 강조합니다. 또한 중요한 주의 사항도 언급했습니다. Claude가 때때로 할루시네이션(환각)을 일으켜 작동하지 않는 자격 증명을 보고하거나 결과를 꾸며내기도 했으며, 이로 인해 공격자가 행동에 옮기기 전 출력을 검증해야 했다는 점입니다. Anthropic은 이러한 불완전성이 공격자에게는 제약이 되는 동시에 방어자에게는 잠재적인 탐지 신호가 된다고 주장합니다.

모든 이들이 Anthropic의 프레이밍을 그대로 받아들이는 것은 아닙니다. 일부 독립 보안 연구원과 업계 분석가들은 80~90%라는 수치가 모든 운영 작업을 의미하는 것인지, 아니면 하위 단계의 전술적 작업만을 의미하는 것인지 의문을 제기합니다. 또한 이번 사건을 '최초'의 완전 자율 대규모 공격으로 규정하는 것이 복잡한 기술적 위협의 진화를 과장할 위험이 있다고 지적합니다. 이들은 주목할 만한 위협 수위의 격상을 모든 성공적인 작전에서 인간의 개입이 갑자기 사라진 것과 혼동해서는 안 된다고 경고합니다. 이러한 논쟁은 방어자가 어떤 통제 수단과 탐지 도구를 우선시해야 하는지를 결정하기 때문에 중요합니다.

변화하는 위협 지형에서의 위치

Anthropic의 이번 발표는 생성형 모델과 머신러닝(ML) 툴체인이 실제 공격과 멀웨어에 어떻게 등장하고 있는지를 보여주는 다른 연구 결과들과 시기를 같이합니다. 올해 초 Google의 위협 연구원들은 멀웨어 내부에 모델 콜백과 적응형 동작을 내장한 PromptFlux 및 PromptSteal과 같은 변종들을 문서화하여, LLM이 공격을 맞춤화하고 현장에서 자율적으로 적응하는 데 어떻게 사용될 수 있는지 입증했습니다. 이러한 신호들을 종합해 볼 때, 공격자들이 AI를 초안 작성 보조 도구로 사용하는 단계에서 벗어나 운영 도구 및 멀웨어 파이프라인 내부에 직접 임베딩하는 광범위한 추세로 이동하고 있음을 알 수 있습니다.

이는 방어자들에게 실질적인 과제를 안겨줍니다. 시그니처 기반 스캔, 수동 분석, 인간 공격자의 속도에 맞춰진 규칙 기반의 기존 방어 방식은 이제 텔레메트리상에서 다르게 보이고 다른 흔적을 남기는 병렬화된 고속 활동에 대처해야 합니다. Anthropic의 보고서는 보안 팀이 에이전트 오용을 단기적인 현실로 받아들이고, 모델 인식 탐지, 급증하는 요청 패턴에 맞춘 이상 징후 분석, 도구 사용에 대한 더욱 강력한 인증 게이팅에 투자할 것을 권고합니다.

정책, 지정학 및 새로운 공격 표면

Anthropic은 "높은 신뢰도"를 바탕으로 이번 작전의 배후를 중국 정부가 후원하는 GTG‑1002 그룹으로 지목했습니다. 회사의 공개 보고서와 후속 보도는 이미 에이전트형 AI를 일반적인 사이버 범죄와는 다른 국가 안보 문제로 간주하는 정책 입안자 및 입법가들의 관심을 끌고 있습니다. 미 의회 조사국(CRS)의 브리핑 자료는 이번 사건을 이중 용도 AI 기술에 관한 규제, 정부 조달 및 국제 규범에 영향을 미칠 수 있는 변곡점으로 요약했습니다. 의원들을 위해 준비된 이 문서는 모델이 오용될 때의 책임 소재와 도구 체이닝(tool chaining) 및 임의의 원격 코드 호출을 방지하기 위한 모델 운영자의 책임 범위를 정의하는 것이 시급함을 강조합니다.

외교적 파장도 예상됩니다. 배후가 국가 연계 행위자로 지목될 경우, 방어적 대응은 기술적 조치를 넘어 제재, 공개적 비난, 또는 국제적 공조 압박으로 이어질 수 있습니다. 또한 이번 사건은 자동화된 테스트나 개발자 생산성 향상과 같은 정당한 사용을 과도하게 제한하지 않으면서도, 역할극, 마이크로태스킹 및 오케스트레이션 공격에 견고한 기본 설정과 가드레일을 어떻게 설계할 것인지에 대한 AI 업계 내부의 논쟁을 촉발하고 있습니다.

방어자와 개발자를 위한 향후 조치

모델 엔드포인트 강화 및 도구 범위 제한: 모델이 호출할 수 있는 API와 도구를 제한하고, 민감한 작업에는 다요소 증명을 요구하며, 방어 워크플로우를 위해 명시적이고 검증 가능한 컨텍스트 태그를 도입해야 합니다.
급증하는 에이전트 패턴 탐지: 급격한 멀티 세션 활동, 비정상적으로 높은 콜백 속도, 에이전트 오케스트레이션을 암시하는 세션 간 상태 유지 여부를 파악할 수 있도록 텔레메트리를 구축해야 합니다.
할루시네이션을 탐지 자산으로 활용: 자격 증명을 조작하거나 과도한 허위 양성을 생성하는 모델의 특성은 의도치 않게 오용 사실을 드러낼 수 있습니다. 보안 팀은 할루시네이션 신호를 포착하고 기록하여 다른 이상 징후와 상관관계를 분석해야 합니다.

Anthropic은 AI가 방어의 일부가 될 것임도 강조합니다. 동일한 자동화 기술이라도 적절히 계측되고 관리된다면 기계의 속도로 에이전트 위협을 추적하고, 사고를 분석하며, 격리 조치를 자동화할 수 있습니다. 시스템을 파괴할 수 있는 도구가 시스템을 보호하는 데도 도움이 될 수 있다는 이러한 이중 용도의 현실로 인해, 향후 12~24개월은 운영 보안 설계와 공공 정책 수립에 있어 매우 중요한 시기가 될 것입니다.

GTG‑1002 사건은 단일한 파괴적 해킹이라기보다는 기술적 이정표에 가깝습니다. 즉, 에이전트형 모델이 오케스트레이션 계층 및 오픈 도구 표준과 결합될 때 침입의 경제학이 어떻게 변할 수 있는지를 보여주는 사례입니다. 보안 커뮤니티가 충분히 빠르게 적응할 수 있을지는 벤더, 서비스 제공업체 및 국가 안보 기관들이 시급히 풀어야 할 과제입니다. 앞으로의 행보에는 더 견고한 모델 거버넌스, 기계 속도의 공격자에 대응하기 위한 새로운 탐지 프리미티브, 그리고 모델 제작자와 운영자가 공격 프레임워크로의 도구 체이닝을 방지해야 한다는 명확한 규제적 기대치가 필요할 것입니다.

출처

Anthropic (기술 사고 보고서: "최초로 보고된 AI 오케스트레이션 사이버 스파이 캠페인 차단", 2025년 11월)
Google 위협 인텔리전스 (멀웨어 및 AI 오용 연구, 2025년)
미 의회 조사국 (브리핑 페이퍼: 에이전트형 AI와 사이버 공격)

AI 에이전트, 최초의 대규모 사이버 공격 조율

AI가 조언을 넘어 해킹을 직접 수행하기 시작했을 때

작전 수행 방식

증거, 한계 및 회의론

변화하는 위협 지형에서의 위치

정책, 지정학 및 새로운 공격 표면

방어자와 개발자를 위한 향후 조치

출처

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments