인공지능의 지형이 수동적인 대화형 모델에서 복잡하고 다단계의 워크플로우를 실행할 수 있는 자율적 '에이전트'로 근본적인 변화를 겪고 있습니다. 이러한 시스템이 막중한 책임이 따르는 전문적인 환경에 통합될 단계에 가까워짐에 따라, 엄격하고 도메인에 특화된 평가의 필요성이 그 어느 때보다 중요해졌습니다. 연구원 Bertie Vidgen, Austin Mann, Abby Fennelly는 투자은행 애널리스트, 경영 컨설턴트, 기업 변호사의 전유물이었던 업무에서 AI의 효능을 측정하기 위해 설계된 새로운 벤치마크인 에이전트용 AI 생산성 지수(APEX-Agents)를 도입하여 이러한 격차를 해소했습니다.
챗봇에서 자율 에이전트로의 전환
지난 수년 동안 대규모 언어 모델(LLM) 성능의 표준은 정적인 추론이나 일반적인 지식 검색을 측정하는 벤치마크에 의존해 왔습니다. 그러나 업계가 AI가 파일 시스템을 탐색하고, 소프트웨어 도구를 사용하며, 장기간에 걸쳐 일련의 동작을 실행할 것으로 기대되는 에이전트 기반 워크플로우로 전환함에 따라 기존 지표는 불충분한 것으로 드러났습니다. APEX-Agents 벤치마크는 이러한 단순한 채팅 인터페이스에서 벗어나, 지속적인 상태 관리와 애플리케이션 간의 조정이 필요한 '장기(long-horizon)' 작업에 초점을 맞춥니다.
연구팀은 전문 서비스의 세 가지 핵심 기둥으로 투자은행, 컨설팅, 법률을 선정했습니다. 이러한 분야는 높은 수준의 정밀도, 다양한 소스(스프레드시트, PDF, 내부 데이터베이스 등)의 데이터를 합성하는 능력, 그리고 복잡한 다단계 지침을 따르는 역량을 요구하기 때문에 선택되었습니다. APEX-Agents는 이러한 고부가가치 인지 부문으로 초점을 옮김으로써, 범용 벤치마크보다 현대 노동력에 미칠 AI의 잠재적 영향력을 더 정확하게 반영합니다.
전문적 추론의 방법론
APEX-Agents의 복잡성은 '장기' 실행을 강조한다는 점에 있습니다. 문서 요약을 요청하는 일반적인 프롬프트와 달리, 이 벤치마크 내의 작업은 에이전트가 인수 계약서를 검토하고, Excel의 재무 모델과 특정 조항을 교차 참조한 다음, 워드 프로세서에서 공식 메모를 작성하도록 요구할 수 있습니다. 이러한 작업은 진공 상태에서 수행되지 않습니다. 벤치마크는 구조화된 파일 시스템과 전문가 수준의 소프트웨어 도구가 완비된 현실적인 작업 환경을 제공합니다.
결과의 신뢰성을 보장하기 위해 연구원들은 Pass@1 지표를 활용했습니다. 이 엄격한 채점 방식은 에이전트가 첫 번째 시도에서 작업을 올바르게 완료할 것을 요구하며, 이는 지속적인 감독이나 여러 번의 재시도가 AI 사용으로 인한 생산성 이득을 상쇄해 버리는 전문적인 환경의 기대치를 반영합니다. 벤치마크는 480개의 개별 작업(n=480)으로 구성되며, 각 작업에는 상세한 루브릭과 AI의 성능을 채점하는 데 사용되는 인간이 검증한 정답인 '골드 아웃풋(gold outputs)'이 수반됩니다.
성능 분석: 지능의 새로운 위계
초기 테스트 단계의 결과는 업계에서 가장 진보된 모델들 사이의 명확한 위계를 보여줍니다. 데이터에 따르면 Gemini 3 Flash (Thinking=High)가 24.0%의 Pass@1 점수를 기록하며 최고 성과자로 나타났습니다. 그 뒤를 GPT-5.2 (Thinking=High)와 Claude Opus 4.5 (Thinking=High)가 근소한 차이로 따랐습니다. Gemini 3 Pro (Thinking=High) 역시 리더보드의 상위권을 차지했습니다. 이러한 결과는 특히 '생각(thinking)' 또는 '추론(reasoning)' 모드의 효능을 강조한다는 점에서 주목할 만합니다. 이 모드는 모델이 외부 동작을 생성하기 전에 내부 논리를 처리할 수 있도록 추가적인 연산 시간을 부여하는 설정입니다.
Google의 Gemini, OpenAI의 GPT, Anthropic의 Claude 등 모든 주요 모델 제품군에서 'Thinking=High' 변체의 성공은 내부적으로 스스로를 수정하고 계획하는 능력이 전문적인 수준의 작업에서 주요 차별화 요소임을 시사합니다. 그러나 24.0%라는 최고 점수조차도 현재 기술 수준의 냉정한 현실을 일깨워 줍니다. 이러한 모델들이 추론 분야에서 상당한 진전을 이루고 있지만, 벤치마크에 포함된 전문 작업의 거의 4분의 3은 여전히 모델의 능력을 벗어나 있었습니다. 이는 주로 도구 통합 실패나 장기 실행 과정에서의 작은 오류 누적 때문이었습니다.
전문가 표준의 오픈 소스화: Archipelago
이 연구의 중요한 기여는 투명성과 재현성에 대한 약속입니다. Vidgen, Mann, Fennelly는 벤치마크 자체와 더불어 에이전트 실행 및 평가를 위해 특별히 설계된 인프라인 Archipelago를 오픈 소스로 공개했습니다. Archipelago를 통해 다른 연구자들은 다양한 모델을 연결하고 동일한 전문 시나리오에 대해 테스트할 수 있으며, 이는 실제 워크스테이션을 모방한 표준화된 '샌드박스'를 제공합니다.
프롬프트, 루브릭, 골드 아웃풋, 메타데이터를 공개함으로써 연구원들은 AI 커뮤니티를 위한 공공 유틸리티를 구축했습니다. 이러한 오픈 소스 접근 방식은 모델이 의도치 않게 테스트 데이터로 학습되는 '벤치마크 포화' 현상을 방지하기 위한 것입니다. 모델의 성공 여부뿐만 아니라 일련의 동작 중 어느 지점에서 실패했는지를 추적하는 APEX-Agents 메타데이터의 세밀함은 개발자들에게 에이전트의 지속성과 도구 사용 정확도를 향상시키기 위한 로드맵을 제공합니다.
기업 노동에 미치는 영향
전문 서비스 부문에 대한 APEX-Agents의 조사 결과는 다각적인 의미를 갖습니다. 한편으로, 복잡한 법률 및 재무 파일을 탐색하는 Gemini 3와 GPT-5.2의 능력은 AI 역량의 중요한 이정표가 됩니다. 다른 한편으로, 낮은 절대적 성공률은 AI가 현재로서는 인간 애널리스트를 완전히 대체하기보다는 정교한 어시스턴트에 더 적합함을 시사합니다. 예기치 않은 소프트웨어 동작이나 모호한 지침에 직면했을 때 실패하는 에이전트의 '취약성(brittleness)'은 광범위한 도입을 가로막는 주요 장애물로 남아 있습니다.
투자은행과 법률 분야의 기업들에 이 벤치마크는 '자체 개발이냐 구매냐(Build vs. Buy)' 결정을 위한 틀을 제공합니다. 이는 범용 모델이 점점 더 유능해지고는 있지만, 일반적인 추론과 도메인별 실행 사이의 격차는 여전히 방대함을 시사합니다. 조직이 자율적인 고객 대면 업무에 필요한 90% 또는 95%의 정확도 수준까지 이 모델들을 끌어올리기 위해서는 전문화된 '래퍼(wrapper)'나 미세 조정(fine-tuning)에 막대한 투자를 해야 할 수도 있습니다.
미래의 방향: 100%를 향한 길
앞으로 연구원들은 APEX-Agents의 다음 과제로 전문 도구의 다양성을 확장하고 작업의 길이를 더욱 늘리는 것이 될 것이라고 밝혔습니다. AI 기업들이 더 큰 컨텍스트 창과 더 정교한 내부 추론 체인을 갖춘 모델을 출시함에 따라, 이 벤치마크는 업계의 지속적인 '스트레스 테스트' 역할을 할 것입니다. 목표는 현재 24.0%의 성공률을 인간의 성과와 맞먹는 신뢰성 수준으로 끌어올리는 것입니다.
궁극적으로 APEX-Agents는 AI가 '생산적'이라는 것이 무엇을 의미하는지에 대한 새로운 기준을 세웁니다. 이는 대화 인터페이스의 신기함을 넘어 전문 노동의 실무 영역으로 대화를 옮겨갑니다. 자율 에이전트가 계속 진화함에 따라, Vidgen, Mann, Fennelly가 제공하는 지표는 '말하는 AI'에서 '일하는 AI'로의 전환을 측정하는 중요한 척도로 남을 것입니다.
Comments
No comments yet. Be the first!