Ragionamento professionale: Gemini 3 e GPT-5.2 leader nelle prestazioni degli agenti AI complessi

Breaking News Technology
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
È stato rilasciato un nuovo benchmark intitolato APEX-Agents per valutare l'efficacia con cui gli agenti di intelligenza artificiale riescono a eseguire compiti a lungo termine e cross-applicazione, tipicamente svolti da banchieri d'investimento e avvocati d'affari. Lo studio rivela che, sebbene i modelli ad alto ragionamento come Gemini 3 Flash e GPT-5.2 stiano compiendo passi da gigante, la complessità degli ambienti professionali reali rappresenta ancora una sfida formidabile per i sistemi autonomi.

Il panorama dell'intelligenza artificiale sta attraversando un cambiamento fondamentale, passando da modelli conversazionali passivi ad "agenti" autonomi capaci di eseguire workflow complessi e multi-fase. Poiché questi sistemi si avvicinano sempre più all'integrazione in contesti professionali ad alto rischio, la necessità di una valutazione rigorosa e specifica per settore non è mai stata così critica. I ricercatori Bertie Vidgen, Austin Mann e Abby Fennelly hanno affrontato questa lacuna introducendo l'AI Productivity Index for Agents (APEX-Agents), un nuovo benchmark progettato per misurare l'efficacia dell'IA in compiti tradizionalmente riservati ad analisti di investment banking, consulenti di gestione e avvocati societari.

Transizione dai Chatbot agli Agenti Autonomi

Negli ultimi anni, il gold standard per le prestazioni dei Large Language Model (LLM) si è basato su benchmark che misurano il ragionamento statico o il recupero di conoscenze generali. Tuttavia, mentre l'industria vira verso workflow agentici — in cui ci si aspetta che l'IA navighi nei file system, utilizzi strumenti software ed esegua sequenze di azioni per periodi prolungati — le metriche tradizionali si sono dimostrate insufficienti. Il benchmark APEX-Agents rappresenta un allontanamento da queste semplici interfacce di chat, concentrandosi invece su compiti "a lungo orizzonte" (long-horizon) che richiedono una gestione persistente dello stato e il coordinamento tra diverse applicazioni.

Il team di ricerca ha identificato tre pilastri fondamentali dei servizi professionali: investment banking, consulenza e legge. Questi campi sono stati selezionati perché richiedono elevati livelli di precisione, la capacità di sintetizzare dati da molteplici fonti (come fogli di calcolo, PDF e database interni) e la capacità di seguire istruzioni complesse articolate in più fasi. Spostando l'attenzione su questi settori cognitivi ad alto valore, APEX-Agents fornisce un riflesso più accurato del potenziale impatto dell'IA sulla forza lavoro moderna rispetto ai benchmark di uso generale.

La metodologia del ragionamento professionale

La complessità di APEX-Agents risiede nell'insistenza sull'esecuzione "a lungo orizzonte". A differenza di un prompt standard che richiede il riassunto di un documento, un compito all'interno di questo benchmark potrebbe richiedere a un agente di analizzare un accordo di acquisizione, incrociare clausole specifiche con un modello finanziario in Excel e quindi redigere un memorandum formale in un elaboratore di testi. Questi compiti non vengono eseguiti nel vuoto; il benchmark fornisce un ambiente di lavoro realistico completo di file system strutturati e strumenti software di livello professionale.

Per garantire l'affidabilità dei risultati, i ricercatori hanno utilizzato la metrica Pass@1. Questo rigoroso metodo di punteggio richiede che l'agente completi il compito correttamente al primo tentativo, rispecchiando le aspettative di un ambiente professionale in cui la supervisione costante o i molteplici tentativi annullerebbero i guadagni di produttività derivanti dall'uso di un'IA. Il benchmark consiste in 480 compiti distinti (n=480), ciascuno accompagnato da una rubrica dettagliata e da "gold outputs" — le risposte corrette verificate da esseri umani utilizzate per valutare le prestazioni dell'IA.

Analisi delle prestazioni: una nuova gerarchia dell'intelligenza

I risultati della fase iniziale di test rivelano una chiara gerarchia tra i modelli più avanzati del settore. Secondo i dati, Gemini 3 Flash (Thinking=High) è emerso come il miglior performer, raggiungendo un punteggio Pass@1 del 24,0%. È stato seguito da vicino da GPT-5.2 (Thinking=High) e Claude Opus 4.5 (Thinking=High). Anche Gemini 3 Pro (Thinking=High) ha completato il livello superiore della classifica. Questi risultati sono particolarmente degni di nota perché evidenziano l'efficacia delle modalità di "pensiero" o "ragionamento" — configurazioni in cui al modello viene concesso tempo di calcolo aggiuntivo per elaborare la logica interna prima di generare un'azione esterna.

Il successo delle varianti "Thinking=High" in tutte le principali famiglie di modelli — Gemini di Google, GPT di OpenAI e Claude di Anthropic — suggerisce che la capacità di autocorreggersi e pianificare internamente sia il principale elemento differenziante nei compiti di livello professionale. Tuttavia, anche il punteggio più alto del 24,0% serve come sobrio promemoria dello stato attuale dell'arte. Sebbene questi modelli stiano facendo passi da gigante nel ragionamento, quasi tre quarti dei compiti professionali nel benchmark sono rimasti fuori dalla loro portata, spesso a causa di fallimenti nell'integrazione degli strumenti o nell'accumulo di piccoli errori durante l'esecuzione a lungo termine.

Open-Sourcing degli standard professionali: Archipelago

Un contributo significativo di questa ricerca è l'impegno verso la trasparenza e la riproducibilità. Insieme al benchmark stesso, Vidgen, Mann e Fennelly hanno rilasciato in modalità open-source Archipelago, un'infrastruttura specificamente progettata per l'esecuzione e la valutazione degli agenti. Archipelago consente ad altri ricercatori di collegare diversi modelli e testarli rispetto ai medesimi scenari professionali, fornendo una "sandbox" standardizzata che imita una postazione di lavoro del mondo reale.

Rilasciando i prompt, le rubriche, i gold output e i metadati, i ricercatori hanno creato un'utilità pubblica per la comunità dell'IA. Questo approccio open-source ha lo scopo di prevenire la "saturazione del benchmark", in cui i modelli vengono inavvertitamente addestrati sui dati di test. La granularità dei metadati di APEX-Agents — che tracciano non solo se un modello ha avuto successo, ma anche in quale punto della sequenza di azioni ha fallito — fornisce agli sviluppatori una tabella di marcia per migliorare la persistenza agentica e la precisione nell'uso degli strumenti.

Le implicazioni per il lavoro aziendale

Le implicazioni dei risultati di APEX-Agents per il settore dei servizi professionali sono molteplici. Da un lato, la capacità di Gemini 3 e GPT-5.2 di navigare in complessi file legali e finanziari segna una pietra miliare significativa nelle capacità dell'IA. Dall'altro, i bassi tassi di successo assoluto suggeriscono che l'IA sia attualmente più adatta come assistente sofisticato piuttosto che come sostituto completo per gli analisti umani. La "fragilità" (brittleness) degli agenti — la loro tendenza a fallire di fronte a comportamenti software inaspettati o istruzioni ambigue — rimane l'ostacolo principale a una diffusione capillare.

Per le aziende del settore investment banking e legale, il benchmark fornisce un quadro di riferimento per le decisioni "Build vs. Buy" (costruire o acquistare). Suggerisce che, sebbene i modelli di uso generale stiano diventando più capaci, il divario tra il ragionamento generale e l'esecuzione specifica per dominio è ancora vasto. Le organizzazioni potrebbero dover investire pesantemente in "wrapper" specializzati o nel fine-tuning per portare questi modelli ai livelli di accuratezza del 90% o 95% richiesti per il lavoro autonomo a contatto con i clienti.

Direzioni future: il percorso verso il 100%

Guardando al futuro, i ricercatori indicano che la prossima frontiera per APEX-Agents comporterà l'espansione della diversità degli strumenti professionali e l'ulteriore aumento della durata dei compiti. Poiché le aziende di IA rilasciano modelli con finestre di contesto ancora più ampie e catene di ragionamento interno più sofisticate, il benchmark servirà come "stress test" persistente per l'industria. L'obiettivo è spostare l'ago della bilancia dall'attuale tasso di successo del 24,0% verso un livello di affidabilità che eguagli l'output umano.

In definitiva, APEX-Agents stabilisce una nuova base di riferimento per ciò che significa per un'IA essere "produttiva". Sposta la conversazione oltre la novità di un'interfaccia chat ed entra nella praticità del lavoro professionale. Con l'evoluzione degli agenti autonomi, le metriche fornite da Vidgen, Mann e Fennelly rimarranno probabilmente un metro di paragone critico per misurare la transizione dall'IA che parla all'IA che lavora.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Cos'è il benchmark APEX-Agents?
A Il benchmark APEX-Agents, o AI Productivity Index for Agents, valuta le prestazioni degli agenti di IA in compiti complessi, a lungo orizzonte e multi-applicazione nei servizi professionali come l'investment banking, la consulenza direzionale e il diritto societario.[1][2] Include 480 compiti in 33 "mondi" simulati con diversi file e strumenti (ad esempio, Calendario, Mail, Fogli di calcolo), utilizzando Pass@1 come metrica principale per il successo in singola esecuzione basata su rubriche di esperti.[1] Sviluppato da Mercor, evidenzia le lacune nella coerenza e nella capacità degli agenti rispetto ai professionisti umani.[2][3]
Q Come si confronta GPT-5 con Gemini 3 nel ragionamento professionale?
A Gemini 3 Pro supera GPT-5 nei benchmark di ragionamento professionale come GPQA Diamond (91,9% contro l'85,7% di GPT-5 con ragionamento), affermandosi come leader nel ragionamento puro e nei compiti scientifici.[1][2] GPT-5 rimane competitivo, in particolare con gli strumenti (89,4%) e il ragionamento adattivo, ma rimane indietro in problemi nuovi e complessi come "Humanity's Last Exam" dove Gemini 3 ottiene il 37,5%.[1] Modelli successivi come GPT-5.2 superano leggermente Gemini 3 Pro su GPQA Diamond al 92,4%, sebbene il quesito si concentri su GPT-5.[4]
Q Gli agenti di IA possono eseguire compiti a lungo orizzonte tra diverse applicazioni?
A Sì, gli agenti di IA possono eseguire compiti a lungo orizzonte tra più applicazioni, come dimostrato da framework come MUSE, che raggiunge prestazioni all'avanguardia sul benchmark TAC coinvolgendo compiti che superano i 40-100 passaggi d'azione attraverso molteplici applicazioni utilizzando un modello leggero Gemini-2.5 Flash.[1] Benchmark come APEX-Agents valutano specificamente gli agenti di IA su compiti di servizi professionali a lungo orizzonte e multi-applicazione,[8] mentre SWE-Bench Pro testa le capacità in scenari complessi di ingegneria del software che richiedono ragionamento tra più file.[3] I continui progressi, inclusi i miglioramenti esponenziali nella lunghezza dei compiti completati (che raddoppia ogni 7 mesi), indicano una crescente competenza, sebbene rimangano lacune sostanziali nell'affidabilità nel mondo reale.[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!