What is the APEX-Agents benchmark?

The APEX-Agents benchmark, or AI Productivity Index for Agents, evaluates AI agents' performance on complex, long-horizon, cross-application tasks in professional services like investment banking, management consulting, and corporate law.[1][2] It features 480 tasks across 33 simulated 'worlds' with diverse files and tools (e.g., Calendar, Mail, Spreadsheets), using Pass@1 as the primary metric for single-run success based on expert rubrics.[1] Developed by Mercor, it highlights gaps in agent consistency and capability compared to human professionals.[2][3]

How does GPT-5 compare to Gemini 3 in professional reasoning?

Gemini 3 Pro outperforms GPT-5 on professional reasoning benchmarks like GPQA Diamond (91.9% vs. GPT-5's 85.7% with thinking), establishing it as the leader in pure reasoning and scientific tasks.[1][2] GPT-5 remains competitive, particularly with tools (89.4%) and adaptive reasoning, but trails in novel, complex problems such as Humanity's Last Exam where Gemini 3 scores 37.5%.[1] Later models like GPT-5.2 slightly edge Gemini 3 Pro on GPQA Diamond at 92.4%, though the query focuses on GPT-5.[4]

Can AI agents execute long-horizon cross-application tasks?

Yes, AI agents can execute long-horizon cross-application tasks, as demonstrated by frameworks like MUSE, which achieves state-of-the-art performance on the TAC benchmark involving tasks exceeding 40-100 action steps across multiple applications using a lightweight Gemini-2.5 Flash model.[1] Benchmarks such as APEX-Agents specifically evaluate AI agents on long-horizon, cross-application professional services tasks,[8] while SWE-Bench Pro tests capabilities in complex software engineering scenarios requiring cross-file reasoning.[3] Ongoing advancements, including exponential improvements in task length completion (doubling every 7 months), indicate growing proficiency, though substantial gaps remain in real-world reliability.[2][4]

Benchmark AI: Gemini 3 e GPT-5.2 eccellono nel ragionamento

Il panorama dell'intelligenza artificiale sta attraversando un cambiamento fondamentale, passando da modelli conversazionali passivi ad "agenti" autonomi capaci di eseguire workflow complessi e multi-fase. Poiché questi sistemi si avvicinano sempre più all'integrazione in contesti professionali ad alto rischio, la necessità di una valutazione rigorosa e specifica per settore non è mai stata così critica. I ricercatori Bertie Vidgen, Austin Mann e Abby Fennelly hanno affrontato questa lacuna introducendo l'AI Productivity Index for Agents (APEX-Agents), un nuovo benchmark progettato per misurare l'efficacia dell'IA in compiti tradizionalmente riservati ad analisti di investment banking, consulenti di gestione e avvocati societari.

Transizione dai Chatbot agli Agenti Autonomi

Negli ultimi anni, il gold standard per le prestazioni dei Large Language Model (LLM) si è basato su benchmark che misurano il ragionamento statico o il recupero di conoscenze generali. Tuttavia, mentre l'industria vira verso workflow agentici — in cui ci si aspetta che l'IA navighi nei file system, utilizzi strumenti software ed esegua sequenze di azioni per periodi prolungati — le metriche tradizionali si sono dimostrate insufficienti. Il benchmark APEX-Agents rappresenta un allontanamento da queste semplici interfacce di chat, concentrandosi invece su compiti "a lungo orizzonte" (long-horizon) che richiedono una gestione persistente dello stato e il coordinamento tra diverse applicazioni.

Il team di ricerca ha identificato tre pilastri fondamentali dei servizi professionali: investment banking, consulenza e legge. Questi campi sono stati selezionati perché richiedono elevati livelli di precisione, la capacità di sintetizzare dati da molteplici fonti (come fogli di calcolo, PDF e database interni) e la capacità di seguire istruzioni complesse articolate in più fasi. Spostando l'attenzione su questi settori cognitivi ad alto valore, APEX-Agents fornisce un riflesso più accurato del potenziale impatto dell'IA sulla forza lavoro moderna rispetto ai benchmark di uso generale.

La metodologia del ragionamento professionale

La complessità di APEX-Agents risiede nell'insistenza sull'esecuzione "a lungo orizzonte". A differenza di un prompt standard che richiede il riassunto di un documento, un compito all'interno di questo benchmark potrebbe richiedere a un agente di analizzare un accordo di acquisizione, incrociare clausole specifiche con un modello finanziario in Excel e quindi redigere un memorandum formale in un elaboratore di testi. Questi compiti non vengono eseguiti nel vuoto; il benchmark fornisce un ambiente di lavoro realistico completo di file system strutturati e strumenti software di livello professionale.

Per garantire l'affidabilità dei risultati, i ricercatori hanno utilizzato la metrica Pass@1. Questo rigoroso metodo di punteggio richiede che l'agente completi il compito correttamente al primo tentativo, rispecchiando le aspettative di un ambiente professionale in cui la supervisione costante o i molteplici tentativi annullerebbero i guadagni di produttività derivanti dall'uso di un'IA. Il benchmark consiste in 480 compiti distinti (n=480), ciascuno accompagnato da una rubrica dettagliata e da "gold outputs" — le risposte corrette verificate da esseri umani utilizzate per valutare le prestazioni dell'IA.

Analisi delle prestazioni: una nuova gerarchia dell'intelligenza

I risultati della fase iniziale di test rivelano una chiara gerarchia tra i modelli più avanzati del settore. Secondo i dati, Gemini 3 Flash (Thinking=High) è emerso come il miglior performer, raggiungendo un punteggio Pass@1 del 24,0%. È stato seguito da vicino da GPT-5.2 (Thinking=High) e Claude Opus 4.5 (Thinking=High). Anche Gemini 3 Pro (Thinking=High) ha completato il livello superiore della classifica. Questi risultati sono particolarmente degni di nota perché evidenziano l'efficacia delle modalità di "pensiero" o "ragionamento" — configurazioni in cui al modello viene concesso tempo di calcolo aggiuntivo per elaborare la logica interna prima di generare un'azione esterna.

Il successo delle varianti "Thinking=High" in tutte le principali famiglie di modelli — Gemini di Google, GPT di OpenAI e Claude di Anthropic — suggerisce che la capacità di autocorreggersi e pianificare internamente sia il principale elemento differenziante nei compiti di livello professionale. Tuttavia, anche il punteggio più alto del 24,0% serve come sobrio promemoria dello stato attuale dell'arte. Sebbene questi modelli stiano facendo passi da gigante nel ragionamento, quasi tre quarti dei compiti professionali nel benchmark sono rimasti fuori dalla loro portata, spesso a causa di fallimenti nell'integrazione degli strumenti o nell'accumulo di piccoli errori durante l'esecuzione a lungo termine.

Open-Sourcing degli standard professionali: Archipelago

Un contributo significativo di questa ricerca è l'impegno verso la trasparenza e la riproducibilità. Insieme al benchmark stesso, Vidgen, Mann e Fennelly hanno rilasciato in modalità open-source Archipelago, un'infrastruttura specificamente progettata per l'esecuzione e la valutazione degli agenti. Archipelago consente ad altri ricercatori di collegare diversi modelli e testarli rispetto ai medesimi scenari professionali, fornendo una "sandbox" standardizzata che imita una postazione di lavoro del mondo reale.

Rilasciando i prompt, le rubriche, i gold output e i metadati, i ricercatori hanno creato un'utilità pubblica per la comunità dell'IA. Questo approccio open-source ha lo scopo di prevenire la "saturazione del benchmark", in cui i modelli vengono inavvertitamente addestrati sui dati di test. La granularità dei metadati di APEX-Agents — che tracciano non solo se un modello ha avuto successo, ma anche in quale punto della sequenza di azioni ha fallito — fornisce agli sviluppatori una tabella di marcia per migliorare la persistenza agentica e la precisione nell'uso degli strumenti.

Le implicazioni per il lavoro aziendale

Le implicazioni dei risultati di APEX-Agents per il settore dei servizi professionali sono molteplici. Da un lato, la capacità di Gemini 3 e GPT-5.2 di navigare in complessi file legali e finanziari segna una pietra miliare significativa nelle capacità dell'IA. Dall'altro, i bassi tassi di successo assoluto suggeriscono che l'IA sia attualmente più adatta come assistente sofisticato piuttosto che come sostituto completo per gli analisti umani. La "fragilità" (brittleness) degli agenti — la loro tendenza a fallire di fronte a comportamenti software inaspettati o istruzioni ambigue — rimane l'ostacolo principale a una diffusione capillare.

Per le aziende del settore investment banking e legale, il benchmark fornisce un quadro di riferimento per le decisioni "Build vs. Buy" (costruire o acquistare). Suggerisce che, sebbene i modelli di uso generale stiano diventando più capaci, il divario tra il ragionamento generale e l'esecuzione specifica per dominio è ancora vasto. Le organizzazioni potrebbero dover investire pesantemente in "wrapper" specializzati o nel fine-tuning per portare questi modelli ai livelli di accuratezza del 90% o 95% richiesti per il lavoro autonomo a contatto con i clienti.

Direzioni future: il percorso verso il 100%

Guardando al futuro, i ricercatori indicano che la prossima frontiera per APEX-Agents comporterà l'espansione della diversità degli strumenti professionali e l'ulteriore aumento della durata dei compiti. Poiché le aziende di IA rilasciano modelli con finestre di contesto ancora più ampie e catene di ragionamento interno più sofisticate, il benchmark servirà come "stress test" persistente per l'industria. L'obiettivo è spostare l'ago della bilancia dall'attuale tasso di successo del 24,0% verso un livello di affidabilità che eguagli l'output umano.

In definitiva, APEX-Agents stabilisce una nuova base di riferimento per ciò che significa per un'IA essere "produttiva". Sposta la conversazione oltre la novità di un'interfaccia chat ed entra nella praticità del lavoro professionale. Con l'evoluzione degli agenti autonomi, le metriche fornite da Vidgen, Mann e Fennelly rimarranno probabilmente un metro di paragone critico per misurare la transizione dall'IA che parla all'IA che lavora.

Ragionamento professionale: Gemini 3 e GPT-5.2 leader nelle prestazioni degli agenti AI complessi

Transizione dai Chatbot agli Agenti Autonomi

La metodologia del ragionamento professionale

Analisi delle prestazioni: una nuova gerarchia dell'intelligenza

Open-Sourcing degli standard professionali: Archipelago

Le implicazioni per il lavoro aziendale

Direzioni future: il percorso verso il 100%

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

Transizione dai Chatbot agli Agenti Autonomi

La metodologia del ragionamento professionale

Analisi delle prestazioni: una nuova gerarchia dell'intelligenza

Open-Sourcing degli standard professionali: Archipelago

Le implicazioni per il lavoro aziendale

Direzioni future: il percorso verso il 100%

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

4K Wallpaper Available