ARTEMIS, 실전 테스트에서 대다수 인간 모의 해킹 전문가 능가
이번 달 약 8,000개의 호스트로 구성된 거대한 대학 네트워크를 조사하기 시작한 노트북과 스크립트 기반 터미널 뭉치의 정체는 주말 업무 중인 인간 해커팀이 아니었다. 그 주인공은 Stanford 연구진이 개발하고 Carnegie Mellon 및 업계 파트너인 Gray Swan AI와 협력하여 테스트한 멀티 에이전트 artificial intelligence 시스템인 ARTEMIS였다. 이번 주 프리프린트 서버에 게시된 논문에 따르면, ARTEMIS는 경쟁에서 종합 2위를 차지했으며, 82%의 유효율로 9개의 검증된 취약점 보고서를 생성하여 10명의 전문 모의 해킹 전문가 중 9명보다 우수한 성적을 거두었다.
이번 실험은 실제 운영 환경과 유사한 환경에서 숙련된 인간 전문가를 상대로 에이전트 기반 AI 레드팀 툴을 일대일로 비교한 최초의 대규모 사례 중 하나다. 이러한 환경 설정은 매우 중요하다. 시뮬레이션 기반 벤치마크에서는 종종 생략되는 노이즈, 인증 특이점, 인터랙티브 UI 요소 등에 AI를 노출시켰기 때문이다. 그 결과, 자율 보안 에이전트가 이미 인간 수준에 도달했거나 능가하는 부분은 어디인지, 그리고 여전히 부족한 부분은 어디인지에 대한 더 명확한 그림이 그려졌다.
ARTEMIS 아키텍처 및 워크플로
ARTEMIS는 단일 모놀리식 모델이 아닌 하나의 작은 생태계다. 최상위에는 계획과 위임을 담당하는 슈퍼바이저(supervisor)가 있고, 그 아래에는 스캔, 공격 시도, 정보 수집과 같은 특정 작업을 수행하는 서브 에이전트 무리가 있으며, 보고 전 후보 발견 사항을 확인하는 트리아지(triage) 모듈이 존재한다. 연구팀은 동적 프롬프트 생성, 단기 전문가로 맞춤화된 임의의 서브 에이전트, 자동화된 취약점 트리아지를 ARTEMIS에 폭과 지속성을 부여하는 핵심 혁신 요소로 설명한다.
이러한 멀티 에이전트 레이아웃은 병렬 처리를 가능하게 한다. ARTEMIS는 인간이 직면하는 휴식이나 자원 제약 없이 동시에 많은 정찰 및 공격 스레드를 실행할 수 있다. 또한 이 설계 덕분에 필요에 따라 서브 에이전트를 즉석에서 재구성할 수 있다. 한 가지 접근 방식이 막히면 다른 프롬프트와 더 좁은 임무를 가진 다른 에이전트가 투입된다. 특히 트리아지 단계는 매우 중요한데, 이는 명백한 오탐(false positive)을 걸러내고 발견 사항의 신호 대 잡음비(signal-to-noise ratio)를 개선하여 단순한 자동화 스캐너의 흔한 약점을 보완한다.
실전 테스트: 규모, 점수 및 비용
현장 테스트는 수십 개의 서브넷과 수천 대의 장치에 걸친 대학 네트워크에서 진행되었다. 이전의 벤치마크 스타일 평가와 달리 연구팀은 실제 운영 환경에서 에이전트를 테스트하기 위해 의도적으로 이 환경을 선택했다. ARTEMIS는 9개의 유효한 취약점을 식별했으며, 제출물에 대해 82%의 검증률을 기록했다. 이 성적으로 ARTEMIS는 대회 종합 2위를 차지하며 대부분의 인간 참가자를 앞질렀다.
비용 측면에서도 놀라운 결과가 나왔다. 연구진에 따르면 가장 효율적인 ARTEMIS 구성(A1으로 명시)의 클라우드 추론 및 오케스트레이션 비용은 시간당 약 18.21달러로, 연구에서 기준점으로 삼은 전문 모의 해킹 전문가의 시장 요율인 시간당 약 60달러보다 훨씬 낮았다. 순수 경제학적 관점에서 시사하는 바는 명확하다. 이제 조직은 인건비의 아주 작은 부분만으로도 상시 자동화된 레드팀을 운영할 수 있게 된 것이다.
강점: 규모, 지속성 및 체계적인 열거
ARTEMIS는 인간 팀이 따라잡기 힘든 장점들을 보여준다. 수천 개의 호스트에 걸친 체계적인 열거(enumeration), 피로 없는 수 시간 동안의 지속적인 캠페인, 그리고 여러 목표에 대한 동시 조사가 그것이다. 인간 테스터가 우선순위를 정하고 순서를 맞춰야 하는 곳에서 ARTEMIS는 여러 조사 라인을 병렬화하고 결과를 신속하게 재결합할 수 있다. 일상적인 서피스(surface) 탐색, 설정 오류 점검, 패턴 기반 취약점 공격 등에서 이 에이전트는 반복적으로 더 빠르고 철저한 모습을 보였다.
이러한 특징들은 ARTEMIS를 보안 팀의 전력 승수(force multiplier)로서 매력적으로 만든다. 이 시스템이 힘들고 반복적인 작업을 처리함으로써 인간은 고도의 맥락적 의사 결정과 복잡한 문제 해결에 집중할 수 있다.
한계 및 실패 모드
이러한 뛰어난 성능에도 불구하고 ARTEMIS는 뚜렷한 약점을 보였다. 최상위 인간 테스터보다 높은 오탐률을 기록했으며, GUI 중심의 흐름이나 인터랙티브 웹 인터페이스 처리에 어려움을 겪었다. 논문은 극명한 사례를 강조한다. 웹 기반 관리 UI 탐색이 필요한 중요한 원격 코드 실행(RCE) 취약점의 경우, 인간 테스터의 80%가 성공적으로 공격에 성공한 반면, ARTEMIS는 이를 재현하지 못하고 대신 낮은 심각도의 발견 사항들만 보고했다.
이러한 한계는 인식과 행동의 격차에서 비롯된다. 언어 모델과 프롬프트 기반 에이전트는 텍스트 기반 추론과 스크립트 생성에는 강하지만, 픽셀 단위의 상호작용, 타이밍 또는 예측 불가능한 프런트엔드 로직이 필요한 부분에서는 취약하다. 또한 연구팀은 이중 용도(dual-use)에 대한 우려도 제기했다. 완화 조치와 책임 있는 공개 관행이 강제되지 않는다면, 오픈 소스로 공개된 강력한 레드팀 에이전트가 악의적인 행위자에 의해 악용될 수 있기 때문이다.
다른 AI 에이전트와의 비교
연구진은 ARTEMIS를 다른 에이전트 프레임워크와 비교했다. 논문에는 초기 싱글 에이전트 시스템과 언어 모델만 기반으로 한 구현 사례 등이 포함되었다. 이전에 평가된 에이전트들을 포함한 이러한 대안들은 대부분의 인간 참가자와 ARTEMIS의 멀티 에이전트 구성에 비해 성능이 저조했다. 연구팀은 ARTEMIS의 우위가 단순히 모델의 크기 덕분이 아니라, 슈퍼바이저/서브 에이전트/트리아지 패턴과 동적 작업 할당 방식에서 기인한다고 분석했다.
방어자, 공격자 및 정책에 대한 시사점
실무적인 시사점은 엇갈린다. 한편으로 ARTEMIS 스타일의 툴은 방어자가 문제를 조기에, 저렴하게, 대규모로 찾아내는 능력을 극적으로 향상시킬 수 있다. 조직은 자동화된 레드팀을 지속적인 보안 파이프라인에 통합하여 해결하기 쉬운 설정 오류를 빠르게 드러내고 패치 작업의 우선순위를 더 효과적으로 정할 수 있다. 반면, 동일한 기능이 공격 automation의 장벽을 낮춘다. 에이전트 AI의 도움을 받는 숙련도가 낮은 공격자도 이전에는 조직된 인간 팀이 필요했던 광범위하고 신속한 캠페인을 실행할 수 있게 된다.
이러한 이중 용도적 특성은 현재 업계와 정책권에서 진행 중인 '위험을 줄이면서 방어적 가치를 어떻게 끌어낼 것인가'에 대한 광범위한 논의와 맞닿아 있다. 연구팀은 투명성을 높이고 방어 기술 발전을 가속화하기 위해 결과물과 오픈 소스 구성 요소를 공개했다. 그들의 접근 방식은 명확히 실용적이다. 플랫폼 및 클라우드 제공업체, 표준 기구, 규제 기관이 안전한 배포와 오용 탐지를 위한 가드레일을 마련하는 동안, 방어자들은 통제된 환경에서 에이전트 툴을 실험해야 한다는 것이다.
대응 방안
보안 리더들에게 당장 필요한 조치는 명확하다. 첫째, 자동화된 에이전트를 인간의 전문성을 대체하는 것이 아니라 보완하는 도구로 취급하라. 이를 사용하여 탐지 범위를 넓히고 취약점 발견 속도를 높이되, 맥락, 판단, 창의적 문제 해결이 필요한 트리아지 및 취약점 공격 단계에는 인간을 계속 참여시켜야 한다. 둘째, 공격자의 에이전트 워크플로 사용을 포착하기 위해 텔레메트리(telemetry)와 이상 탐지 기능을 강화하라. 셋째, AI의 속도와 인간의 판단력을 결합한 '인간 참여형(human-in-the-loop)' 프로세스와 레드팀 오케스트레이션에 투자하라.
마지막으로, 업계 구성원들은 책임 있는 공개 프레임워크, 실제 운영의 복잡성을 반영하는 표준화된 벤치마크, 그리고 에이전트의 속도에 맞춘 위협 공유 메커니즘을 위해 협력해야 한다.
ARTEMIS는 분명한 변곡점을 보여준다. 자율 에이전트는 더 이상 실험실의 신기한 구경거리가 아니다. 통제된 시험에서 이들은 대규모 네트워크의 대부분의 인간 테스터보다 더 많은 취약점을 찾아내고, 저렴한 비용으로 상시 가동되며, 일상적인 공격 보안 업무 방식을 재편할 수 있음을 입증했다. 하지만 동시에 GUI 상호작용, 미묘한 취약점 공격, 그리고 인간의 창의성이 여전히 지배하는 마지막 10~20%의 문제 해결 능력 등 현재 AI의 한계 또한 명확히 드러냈다. 다음 단계는 이러한 에이전트들을 방어 측면의 이점을 유지하도록 설계된 팀과 시스템 내에서 실제로 활용하는 것이 될 것이다.
출처
- arXiv (ARTEMIS 멀티 에이전트 모의 해킹에 관한 연구 논문)
- Stanford University (연구팀 및 학습 자료)
- Carnegie Mellon University (협력 연구진)
- Gray Swan AI (업계 파트너 및 툴링 기여)
Comments
No comments yet. Be the first!