ARTEMIS AI, 모의 해킹 전문가 90% 제쳤다

인공지능
ARTEMIS AI Beats 90% of Pen-Testers
스탠퍼드 대학교 연구진이 주도한 연구에 따르면, 멀티 에이전트 AI 'ARTEMIS'가 8,000개의 호스트로 구성된 실제 대학 네트워크 환경에서 전문 모의 해킹 전문가(펜테스터) 10명 중 9명보다 더 많은 실제 취약점을 발견했다. 인간 전문가 팀 비용의 극히 일부만으로 거둔 성과다. 이번 주 arXiv에 게재된 이 논문은 AI 기반 레드팀 구성의 운영상 강점과 명확한 한계를 동시에 조명하고 있다.

ARTEMIS, 실전 테스트에서 대다수 인간 모의 해킹 전문가 능가

이번 달 약 8,000개의 호스트로 구성된 거대한 대학 네트워크를 조사하기 시작한 노트북과 스크립트 기반 터미널 뭉치의 정체는 주말 업무 중인 인간 해커팀이 아니었다. 그 주인공은 Stanford 연구진이 개발하고 Carnegie Mellon 및 업계 파트너인 Gray Swan AI와 협력하여 테스트한 멀티 에이전트 artificial intelligence 시스템인 ARTEMIS였다. 이번 주 프리프린트 서버에 게시된 논문에 따르면, ARTEMIS는 경쟁에서 종합 2위를 차지했으며, 82%의 유효율로 9개의 검증된 취약점 보고서를 생성하여 10명의 전문 모의 해킹 전문가 중 9명보다 우수한 성적을 거두었다.

이번 실험은 실제 운영 환경과 유사한 환경에서 숙련된 인간 전문가를 상대로 에이전트 기반 AI 레드팀 툴을 일대일로 비교한 최초의 대규모 사례 중 하나다. 이러한 환경 설정은 매우 중요하다. 시뮬레이션 기반 벤치마크에서는 종종 생략되는 노이즈, 인증 특이점, 인터랙티브 UI 요소 등에 AI를 노출시켰기 때문이다. 그 결과, 자율 보안 에이전트가 이미 인간 수준에 도달했거나 능가하는 부분은 어디인지, 그리고 여전히 부족한 부분은 어디인지에 대한 더 명확한 그림이 그려졌다.

ARTEMIS 아키텍처 및 워크플로

ARTEMIS는 단일 모놀리식 모델이 아닌 하나의 작은 생태계다. 최상위에는 계획과 위임을 담당하는 슈퍼바이저(supervisor)가 있고, 그 아래에는 스캔, 공격 시도, 정보 수집과 같은 특정 작업을 수행하는 서브 에이전트 무리가 있으며, 보고 전 후보 발견 사항을 확인하는 트리아지(triage) 모듈이 존재한다. 연구팀은 동적 프롬프트 생성, 단기 전문가로 맞춤화된 임의의 서브 에이전트, 자동화된 취약점 트리아지를 ARTEMIS에 폭과 지속성을 부여하는 핵심 혁신 요소로 설명한다.

이러한 멀티 에이전트 레이아웃은 병렬 처리를 가능하게 한다. ARTEMIS는 인간이 직면하는 휴식이나 자원 제약 없이 동시에 많은 정찰 및 공격 스레드를 실행할 수 있다. 또한 이 설계 덕분에 필요에 따라 서브 에이전트를 즉석에서 재구성할 수 있다. 한 가지 접근 방식이 막히면 다른 프롬프트와 더 좁은 임무를 가진 다른 에이전트가 투입된다. 특히 트리아지 단계는 매우 중요한데, 이는 명백한 오탐(false positive)을 걸러내고 발견 사항의 신호 대 잡음비(signal-to-noise ratio)를 개선하여 단순한 자동화 스캐너의 흔한 약점을 보완한다.

실전 테스트: 규모, 점수 및 비용

현장 테스트는 수십 개의 서브넷과 수천 대의 장치에 걸친 대학 네트워크에서 진행되었다. 이전의 벤치마크 스타일 평가와 달리 연구팀은 실제 운영 환경에서 에이전트를 테스트하기 위해 의도적으로 이 환경을 선택했다. ARTEMIS는 9개의 유효한 취약점을 식별했으며, 제출물에 대해 82%의 검증률을 기록했다. 이 성적으로 ARTEMIS는 대회 종합 2위를 차지하며 대부분의 인간 참가자를 앞질렀다.

비용 측면에서도 놀라운 결과가 나왔다. 연구진에 따르면 가장 효율적인 ARTEMIS 구성(A1으로 명시)의 클라우드 추론 및 오케스트레이션 비용은 시간당 약 18.21달러로, 연구에서 기준점으로 삼은 전문 모의 해킹 전문가의 시장 요율인 시간당 약 60달러보다 훨씬 낮았다. 순수 경제학적 관점에서 시사하는 바는 명확하다. 이제 조직은 인건비의 아주 작은 부분만으로도 상시 자동화된 레드팀을 운영할 수 있게 된 것이다.

강점: 규모, 지속성 및 체계적인 열거

ARTEMIS는 인간 팀이 따라잡기 힘든 장점들을 보여준다. 수천 개의 호스트에 걸친 체계적인 열거(enumeration), 피로 없는 수 시간 동안의 지속적인 캠페인, 그리고 여러 목표에 대한 동시 조사가 그것이다. 인간 테스터가 우선순위를 정하고 순서를 맞춰야 하는 곳에서 ARTEMIS는 여러 조사 라인을 병렬화하고 결과를 신속하게 재결합할 수 있다. 일상적인 서피스(surface) 탐색, 설정 오류 점검, 패턴 기반 취약점 공격 등에서 이 에이전트는 반복적으로 더 빠르고 철저한 모습을 보였다.

이러한 특징들은 ARTEMIS를 보안 팀의 전력 승수(force multiplier)로서 매력적으로 만든다. 이 시스템이 힘들고 반복적인 작업을 처리함으로써 인간은 고도의 맥락적 의사 결정과 복잡한 문제 해결에 집중할 수 있다.

한계 및 실패 모드

이러한 뛰어난 성능에도 불구하고 ARTEMIS는 뚜렷한 약점을 보였다. 최상위 인간 테스터보다 높은 오탐률을 기록했으며, GUI 중심의 흐름이나 인터랙티브 웹 인터페이스 처리에 어려움을 겪었다. 논문은 극명한 사례를 강조한다. 웹 기반 관리 UI 탐색이 필요한 중요한 원격 코드 실행(RCE) 취약점의 경우, 인간 테스터의 80%가 성공적으로 공격에 성공한 반면, ARTEMIS는 이를 재현하지 못하고 대신 낮은 심각도의 발견 사항들만 보고했다.

이러한 한계는 인식과 행동의 격차에서 비롯된다. 언어 모델과 프롬프트 기반 에이전트는 텍스트 기반 추론과 스크립트 생성에는 강하지만, 픽셀 단위의 상호작용, 타이밍 또는 예측 불가능한 프런트엔드 로직이 필요한 부분에서는 취약하다. 또한 연구팀은 이중 용도(dual-use)에 대한 우려도 제기했다. 완화 조치와 책임 있는 공개 관행이 강제되지 않는다면, 오픈 소스로 공개된 강력한 레드팀 에이전트가 악의적인 행위자에 의해 악용될 수 있기 때문이다.

다른 AI 에이전트와의 비교

연구진은 ARTEMIS를 다른 에이전트 프레임워크와 비교했다. 논문에는 초기 싱글 에이전트 시스템과 언어 모델만 기반으로 한 구현 사례 등이 포함되었다. 이전에 평가된 에이전트들을 포함한 이러한 대안들은 대부분의 인간 참가자와 ARTEMIS의 멀티 에이전트 구성에 비해 성능이 저조했다. 연구팀은 ARTEMIS의 우위가 단순히 모델의 크기 덕분이 아니라, 슈퍼바이저/서브 에이전트/트리아지 패턴과 동적 작업 할당 방식에서 기인한다고 분석했다.

방어자, 공격자 및 정책에 대한 시사점

실무적인 시사점은 엇갈린다. 한편으로 ARTEMIS 스타일의 툴은 방어자가 문제를 조기에, 저렴하게, 대규모로 찾아내는 능력을 극적으로 향상시킬 수 있다. 조직은 자동화된 레드팀을 지속적인 보안 파이프라인에 통합하여 해결하기 쉬운 설정 오류를 빠르게 드러내고 패치 작업의 우선순위를 더 효과적으로 정할 수 있다. 반면, 동일한 기능이 공격 automation의 장벽을 낮춘다. 에이전트 AI의 도움을 받는 숙련도가 낮은 공격자도 이전에는 조직된 인간 팀이 필요했던 광범위하고 신속한 캠페인을 실행할 수 있게 된다.

이러한 이중 용도적 특성은 현재 업계와 정책권에서 진행 중인 '위험을 줄이면서 방어적 가치를 어떻게 끌어낼 것인가'에 대한 광범위한 논의와 맞닿아 있다. 연구팀은 투명성을 높이고 방어 기술 발전을 가속화하기 위해 결과물과 오픈 소스 구성 요소를 공개했다. 그들의 접근 방식은 명확히 실용적이다. 플랫폼 및 클라우드 제공업체, 표준 기구, 규제 기관이 안전한 배포와 오용 탐지를 위한 가드레일을 마련하는 동안, 방어자들은 통제된 환경에서 에이전트 툴을 실험해야 한다는 것이다.

대응 방안

보안 리더들에게 당장 필요한 조치는 명확하다. 첫째, 자동화된 에이전트를 인간의 전문성을 대체하는 것이 아니라 보완하는 도구로 취급하라. 이를 사용하여 탐지 범위를 넓히고 취약점 발견 속도를 높이되, 맥락, 판단, 창의적 문제 해결이 필요한 트리아지 및 취약점 공격 단계에는 인간을 계속 참여시켜야 한다. 둘째, 공격자의 에이전트 워크플로 사용을 포착하기 위해 텔레메트리(telemetry)와 이상 탐지 기능을 강화하라. 셋째, AI의 속도와 인간의 판단력을 결합한 '인간 참여형(human-in-the-loop)' 프로세스와 레드팀 오케스트레이션에 투자하라.

마지막으로, 업계 구성원들은 책임 있는 공개 프레임워크, 실제 운영의 복잡성을 반영하는 표준화된 벤치마크, 그리고 에이전트의 속도에 맞춘 위협 공유 메커니즘을 위해 협력해야 한다.

ARTEMIS는 분명한 변곡점을 보여준다. 자율 에이전트는 더 이상 실험실의 신기한 구경거리가 아니다. 통제된 시험에서 이들은 대규모 네트워크의 대부분의 인간 테스터보다 더 많은 취약점을 찾아내고, 저렴한 비용으로 상시 가동되며, 일상적인 공격 보안 업무 방식을 재편할 수 있음을 입증했다. 하지만 동시에 GUI 상호작용, 미묘한 취약점 공격, 그리고 인간의 창의성이 여전히 지배하는 마지막 10~20%의 문제 해결 능력 등 현재 AI의 한계 또한 명확히 드러냈다. 다음 단계는 이러한 에이전트들을 방어 측면의 이점을 유지하도록 설계된 팀과 시스템 내에서 실제로 활용하는 것이 될 것이다.

출처

  • arXiv (ARTEMIS 멀티 에이전트 모의 해킹에 관한 연구 논문)
  • Stanford University (연구팀 및 학습 자료)
  • Carnegie Mellon University (협력 연구진)
  • Gray Swan AI (업계 파트너 및 툴링 기여)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 실제 대학 네트워크 테스트에서 ARTEMIS는 인간 모의 해킹 전문가(pentester)들과 비교했을 때 어떤 성과를 거두었습니까?
A ARTEMIS는 실제 환경 테스트에서 82%의 유효성 확인율로 9개의 유효한 취약점을 식별하며 뛰어난 성과를 보여주었으며, 전체 2위를 기록하며 10명의 전문 테스터 중 9명보다 우수한 성적을 거두었습니다. 이 테스트는 약 12개의 서브넷에 걸친 8,000여 대의 호스트를 대상으로 진행되었으며, 실제 운영 환경과 유사한 조건에서 ARTEMIS의 확장성과 자동화된 효율성을 입증했습니다.
Q ARTEMIS는 어떻게 구성되어 있으며, 각 구성 요소는 어떤 역할을 수행합니까?
A ARTEMIS는 단일 모델이라기보다는 하나의 작은 생태계에 가깝습니다. 최상위 감독자(supervisor)가 작업을 계획하고 위임하면, 하위 에이전트 군집이 스캐닝, 취약점 공격(exploitation), 정보 수집과 같은 표적 작업을 실행하고, 분류(triage) 모듈이 보고 전 후보 발견 사항을 검증합니다. 동적 프롬프트 생성과 하위 에이전트의 즉각적인 재구성을 통해 ARTEMIS는 광범위한 대응력, 지속성 및 적응력을 갖춥니다.
Q 테스트에서 나타난 ARTEMIS의 주요 강점은 무엇입니까?
A ARTEMIS의 강점은 확장성, 지속성, 그리고 체계적인 열거(enumeration)에 있습니다. 수천 개의 정찰 스레드를 병렬로 실행할 수 있고, 피로감 없이 수 시간 동안 캠페인을 지속하며, 수많은 대상을 철저하게 조사할 수 있습니다. 이러한 방식은 결과의 신속한 재조합과 일상적인 탐색 업무의 대행을 가능하게 하며, 높은 수준의 맥락 판단과 문제 해결은 인간 방어자에게 맡김으로써 실질적인 역량 증폭기(force multiplier) 역할을 합니다.
Q ARTEMIS의 한계와 주목할 만한 실패 사례는 무엇이었습니까?
A ARTEMIS는 최우수 인간 테스터보다 높은 오탐률(false-positive rate)을 보였으며, GUI 중심의 흐름이나 상호작용이 많은 웹 인터페이스 처리에 어려움을 겪는 등 뚜렷한 한계를 보였습니다. 한 가지 두드러진 사례로, 웹 기반 관리자 UI 조작이 필요한 치명적인 원격 코드 실행(RCE) 취약점 테스트에서 인간 테스터의 80%가 성공한 반면, ARTEMIS는 공격 재현에 실패하고 낮은 심각도의 결과만 보고했습니다. 이러한 약점의 근저에는 인지 및 행동의 격차가 존재합니다.
Q 비용 측면의 영향과 정책적 고려 사항은 무엇입니까?
A 비용과 정책적 영향은 매우 인상적이었습니다. 가장 효율적인 ARTEMIS 구성의 운영 비용은 클라우드 추론 및 오케스트레이션을 포함해 시간당 약 $18.21로, 전문 모의 해킹 테스터의 기준 비용인 시간당 약 $60보다 훨씬 낮습니다. 이러한 비용 절감은 지속적인 자동화 레드팀 운영을 가능하게 하지만, 완화 조치나 책임 있는 배포 관행 없이 에이전트형 AI가 공격적인 캠페인에 재용도될 수 있다는 이중 용도(dual-use) 우려를 불러일으킵니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!