Бенчмаркинг профессиональных рассуждений: Gemini 3 и GPT-5.2 лидируют в эффективности сложных ИИ-агентов

Breaking News Technology
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Представлен новый бенчмарк APEX-Agents, предназначенный для оценки эффективности ИИ-агентов при выполнении долгосрочных кросс-платформенных задач, типичных для инвестиционных банкиров и корпоративных юристов. Исследование показывает: несмотря на значительные успехи моделей с продвинутым логическим мышлением, таких как Gemini 3 Flash и GPT-5.2, сложность реальной профессиональной среды по-прежнему остается серьезным вызовом для автономных систем.

Ландшафт искусственного интеллекта претерпевает фундаментальный сдвиг: от пассивных разговорных моделей к автономным «агентам», способным выполнять сложные многоэтапные рабочие процессы. По мере того как эти системы все ближе подходят к интеграции в ответственные профессиональные среды, потребность в строгой, специализированной оценке становится как никогда актуальной. Исследователи Bertie Vidgen, Austin Mann и Abby Fennelly восполнили этот пробел, представив AI Productivity Index for Agents (APEX-Agents) — новый бенчмарк, предназначенный для измерения эффективности ИИ в задачах, которые традиционно выполняются аналитиками инвестиционных банков, консультантами по управлению и корпоративными юристами.

Переход от чат-ботов к автономным агентам

В последние несколько лет золотой стандарт производительности больших языковых моделей (LLM) опирался на бенчмарки, измеряющие статичное мышление или поиск общих знаний. Однако по мере того как индустрия переходит к «агентным» рабочим процессам — где от ИИ ожидается навигация по файловым системам, использование программных инструментов и выполнение последовательностей действий в течение длительных периодов времени — традиционных метрик стало недостаточно. Бенчмарк APEX-Agents представляет собой отход от простых интерфейсов чата, фокусируясь вместо этого на задачах с «длительным горизонтом» (long-horizon), которые требуют постоянного управления состоянием и координации между различными приложениями.

Исследовательская группа выделила три основных столпа профессиональных услуг: инвестиционный банкинг, консалтинг и право. Эти области были выбраны потому, что они требуют высокого уровня точности, способности синтезировать данные из нескольких источников (таких как электронные таблицы, PDF-файлы и внутренние базы данных) и умения следовать сложным многоэтапным инструкциям. Смещая акцент на эти высокоценные когнитивные секторы, APEX-Agents дает более точное представление о потенциальном влиянии ИИ на современную рабочую силу, чем бенчмарки общего назначения.

Методология профессионального мышления

Сложность APEX-Agents заключается в требовании выполнения задач с «длительным горизонтом». В отличие от стандартного промпта с просьбой составить резюме документа, задача в рамках этого бенчмарка может потребовать от агента изучить соглашение о слиянии, сопоставить конкретные пункты с финансовой моделью в Excel, а затем составить официальный меморандум в текстовом редакторе. Эти задачи выполняются не в вакууме; бенчмарк предоставляет реалистичную рабочую среду со структурированными файловыми системами и профессиональными программными инструментами.

Чтобы обеспечить надежность результатов, исследователи использовали метрику Pass@1. Этот строгий метод оценки требует, чтобы агент правильно выполнил задачу с первой попытки, что отражает ожидания в профессиональной среде, где постоянный контроль или многочисленные повторные попытки свели бы на нет выгоду от использования ИИ. Бенчмарк состоит из 480 отдельных задач (n=480), каждая из которых сопровождается подробным критерием оценки и «эталонными результатами» (gold outputs) — проверенными человеком правильными ответами, используемыми для оценки производительности ИИ.

Анализ производительности: новая иерархия интеллекта

Результаты начального этапа тестирования выявили четкую иерархию среди самых продвинутых моделей в индустрии. Согласно данным, Gemini 3 Flash (Thinking=High) стал лидером, достигнув показателя Pass@1 в 24,0%. За ним вплотную следуют GPT-5.2 (Thinking=High) и Claude Opus 4.5 (Thinking=High). Gemini 3 Pro (Thinking=High) также вошел в верхнюю часть таблицы лидеров. Эти результаты особенно примечательны тем, что они подчеркивают эффективность режимов «мышления» или «рассуждения» — конфигураций, в которых модели предоставляется дополнительное вычислительное время для обработки внутренней логики перед совершением внешнего действия.

Успех вариантов с параметром «Thinking=High» во всех основных семействах моделей — Gemini от Google, GPT от OpenAI и Claude от Anthropic — позволяет предположить, что способность к самокоррекции и внутреннему планированию является основным отличительным фактором при выполнении задач профессионального уровня. Тем не менее, даже самый высокий результат в 24,0% служит отрезвляющим напоминанием о текущем состоянии технологий. Хотя эти модели делают значительные успехи в рассуждении, почти три четверти профессиональных задач в бенчмарке остались им не под силу, зачастую из-за сбоев в интеграции инструментов или накопления мелких ошибок в ходе длительного выполнения.

Открытие стандартов профессионального уровня: Archipelago

Значительным вкладом этого исследования является стремление к прозрачности и воспроизводимости. Вместе с самим бенчмарком Vidgen, Mann и Fennelly открыли исходный код Archipelago — инфраструктуры, специально разработанной для запуска и оценки агентов. Archipelago позволяет другим исследователям подключать различные модели и тестировать их в тех же профессиональных сценариях, предоставляя стандартизированную «песочницу», имитирующую реальное рабочее место.

Выпустив промпты, критерии оценки, эталонные результаты и метаданные, исследователи создали общедоступный инструмент для сообщества ИИ. Этот подход с открытым исходным кодом призван предотвратить «перенасыщение бенчмарка», когда модели непреднамеренно обучаются на тестовых данных. Детализация метаданных APEX-Agents — которые отслеживают не просто успех модели, но и то, на каком этапе последовательности действий она потерпела неудачу — дает разработчикам дорожную карту для улучшения устойчивости агентов и точности использования инструментов.

Последствия для корпоративного сектора

Выводы APEX-Agents для сектора профессиональных услуг многогранны. С одной стороны, способность Gemini 3 и GPT-5.2 ориентироваться в сложных юридических и финансовых файлах знаменует собой важную веху в возможностях ИИ. С другой стороны, низкие показатели абсолютного успеха говорят о том, что в настоящее время ИИ больше подходит на роль высокотехнологичного помощника, чем на роль полноценной замены аналитиков-людей. «Хрупкость» агентов — их склонность к сбоям при столкновении с неожиданным поведением программного обеспечения или двусмысленными инструкциями — остается главным препятствием для широкого внедрения.

Для фирм в сфере инвестиционного банкинга и права бенчмарк предоставляет основу для принятия решений «создать или купить». Он показывает, что хотя модели общего назначения становятся все более способными, разрыв между общим мышлением и специализированным исполнением все еще огромен. Организациям может потребоваться вложить значительные средства в специализированные «оболочки» или тонкую настройку, чтобы довести эти модели до уровня точности 90% или 95%, необходимого для автономной работы с клиентами.

Направления будущего: путь к 100%

Заглядывая вперед, исследователи указывают, что следующим этапом развития APEX-Agents станет расширение разнообразия профессиональных инструментов и дальнейшее увеличение длительности задач. По мере того как компании, занимающиеся ИИ, выпускают модели с еще большими контекстными окнами и более сложными внутренними цепочками рассуждений, бенчмарк будет служить постоянным «стресс-тестом» для индустрии. Цель состоит в том, чтобы сдвинуть планку с текущего показателя успеха в 24,0% к уровню надежности, соответствующему человеческим результатам.

В конечном счете, APEX-Agents устанавливает новый базовый уровень того, что значит для ИИ быть «продуктивным». Это переводит дискуссию за рамки новизны интерфейса чата в плоскость практического профессионального труда. По мере эволюции автономных агентов метрики, предоставленные Vidgen, Mann и Fennelly, вероятно, останутся критически важным мерилом для оценки перехода от ИИ, который говорит, к ИИ, который работает.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Что такое бенчмарк APEX-Agents?
A Бенчмарк APEX-Agents, или Индекс производительности ИИ для агентов, оценивает работу ИИ-агентов при выполнении сложных, многоэтапных и кросс-приложенческих задач в таких профессиональных сферах, как инвестиционный банкинг, управленческий консалтинг и корпоративное право. [1][2] Он включает 480 задач в 33 симулированных «мирах» с различными файлами и инструментами (например, Календарь, Почта, Таблицы), используя Pass@1 в качестве основной метрики успеха с первой попытки на основе экспертных критериев. [1] Разработанный компанией Mercor, он подчеркивает пробелы в стабильности и возможностях агентов по сравнению с профессионалами-людьми. [2][3]
Q Как GPT-5 соотносится с Gemini 3 в профессиональном рассуждении?
A Gemini 3 Pro превосходит GPT-5 в бенчмарках профессионального рассуждения, таких как GPQA Diamond (91,9% против 85,7% у GPT-5 в режиме размышления), утверждая себя в качестве лидера в чистом логическом рассуждении и научных задачах. [1][2] GPT-5 остается конкурентоспособным, особенно при использовании инструментов (89,4%) и адаптивном рассуждении, но отстает в решении новых сложных проблем, таких как «Последний экзамен человечества» (Humanity's Last Exam), где Gemini 3 набирает 37,5%. [1] Более поздние модели, такие как GPT-5.2, немного опережают Gemini 3 Pro в GPQA Diamond с результатом 92,4%, хотя запрос сфокусирован на GPT-5. [4]
Q Могут ли ИИ-агенты выполнять многоэтапные кросс-приложенческие задачи?
A Да, ИИ-агенты могут выполнять многоэтапные кросс-приложенческие задачи, что продемонстрировано такими фреймворками, как MUSE, который достигает передовых результатов в бенчмарке TAC, включающем задачи из более чем 40–100 шагов действий в нескольких приложениях с использованием облегченной модели Gemini-2.5 Flash. [1] Бенчмарки, такие как APEX-Agents, специально оценивают ИИ-агентов на многоэтапных кросс-приложенческих задачах в сфере профессиональных услуг, [8] в то время как SWE-Bench Pro тестирует возможности в сложных сценариях программной инженерии, требующих рассуждения между несколькими файлами. [3] Текущие достижения, включая экспоненциальное улучшение длины выполняемых задач (удвоение каждые 7 месяцев), указывают на рост квалификации, хотя в реальной надежности сохраняются значительные пробелы. [2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!