Benchmarking av professionellt resonemang: Gemini 3 och GPT-5.2 i topp för komplexa AI-agenter

Breaking News Technology
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Ett nytt benchmark-test vid namn APEX-Agents har lanserats för att utvärdera hur effektivt AI-agenter kan utföra långsiktiga uppgifter över flera applikationer, av den typ som vanligtvis hanteras av investmentbankirer och affärsjurister. Studien visar att även om modeller med hög resonemangsförmåga som Gemini 3 Flash och GPT-5.2 gör betydande framsteg, utgör komplexiteten i realistiska professionella miljöer fortfarande en formidabel utmaning för autonoma system.

Landskapet för artificiell intelligens genomgår ett fundamentalt skifte från passiva konversationsmodeller till autonoma "agenter" som kan utföra komplexa arbetsflöden i flera steg. I takt med att dessa system kommer närmare en integrering i kritiska professionella miljöer har behovet av rigorös, domänspecifik utvärdering aldrig varit viktigare. Forskarna Bertie Vidgen, Austin Mann och Abby Fennelly har adresserat detta gap genom introduktionen av AI Productivity Index for Agents (APEX-Agents), en ny benchmark utformad för att mäta effektiviteten hos AI i uppgifter som traditionellt är förbehållna analytiker inom investeringsbanker, managementkonsulter och affärsjurister.

Övergången från chattbottar till autonoma agenter

Under de senaste åren har guldstandarden för prestanda hos stora språkmodeller (LLM) förlitat sig på benchmarks som mäter statiskt resonerande eller hämtning av allmän kunskap. Men i takt med att branschen rör sig mot agentbaserade arbetsflöden – där AI förväntas navigera i filsystem, använda programvaruverktyg och utföra sekvenser av handlingar över längre tidsperioder – har traditionella mätvärden visat sig vara otillräckliga. APEX-Agents representerar ett avsteg från dessa enkla chattgränssnitt och fokuserar istället på uppgifter med "lång tidshorisont" som kräver ihållande tillståndshantering och samordning mellan olika applikationer.

Forskargruppen identifierade tre kärnpelare inom professionella tjänster: investeringsbankverksamhet, konsultverksamhet och juridik. Dessa områden valdes eftersom de kräver hög precision, förmåga att syntetisera data från flera källor (såsom kalkylblad, PDF-filer och interna databaser) och kapacitet att följa komplexa instruktioner i flera steg. Genom att flytta fokus till dessa kognitivt krävande sektorer ger APEX-Agents en mer korrekt återspegling av AI:s potentiella inverkan på den moderna arbetskraften än generella benchmarks.

Metodiken för professionellt resonerande

Komplexiteten i APEX-Agents ligger i kravet på utförande över "långa tidshorisonter". Till skillnad från en standardprompt som ber om en sammanfattning av ett dokument, kan en uppgift inom denna benchmark kräva att en agent läser in ett förvärvsavtal, korsrefererar specifika klausuler med en finansiell modell i Excel och sedan skriver ett formellt memorandum i ett ordbehandlingsprogram. Dessa uppgifter utförs inte i ett vakuum; benchmarken tillhandahåller en realistisk arbetsmiljö komplett med strukturerade filsystem och programvaruverktyg av professionell standard.

För att säkerställa resultatens tillförlitlighet använde forskarna mätvärdet Pass@1. Denna rigorösa poängsättningsmetod kräver att agenten slutför uppgiften korrekt vid sitt första försök, vilket speglar förväntningarna i en professionell miljö där ständig övervakning eller flera försök skulle omintetgöra produktivitetsvinsterna med att använda en AI. Benchmarken består av 480 distinkta uppgifter (n=480), var och en åtföljd av en detaljerad bedömningsmall och "guld-svar" – de mänskligt verifierade korrekta svaren som används för att betygsätta AI:ns prestanda.

Prestandaanalys: En ny hierarki av intelligens

Resultaten från den initiala testfasen avslöjar en tydlig hierarki bland branschens mest avancerade modeller. Enligt data framstod Gemini 3 Flash (Thinking=High) som den främsta prestandamodellen med en Pass@1-poäng på 24,0 %. Detta följdes tätt av GPT-5.2 (Thinking=High) och Claude Opus 4.5 (Thinking=High). Gemini 3 Pro (Thinking=High) kompletterade också toppskiktet på ledartavlan. Dessa resultat är särskilt anmärkningsvärda eftersom de belyser effektiviteten hos "tänkande" eller "resonerande" lägen – konfigurationer där modellen ges ytterligare beräkningstid för att bearbeta intern logik innan den genererar en extern handling.

Framgången för "Thinking=High"-varianterna i alla stora modellfamiljer – Googles Gemini, OpenAI:s GPT och Anthropics Claude – tyder på att förmågan till självkorrigering och intern planering är den primära differentieringsfaktorn i uppgifter på professionell nivå. Men även den högsta poängen på 24,0 % fungerar som en nykter påminnelse om dagens tekniknivå. Även om dessa modeller gör betydande framsteg inom resonerande, förblev nästan tre fjärdedelar av de professionella uppgifterna i benchmarken utom räckhåll, ofta på grund av brister i verktygsintegration eller ackumulering av små fel under ett långvarigt utförande.

Öppen källkod för professionella standarder: Archipelago

Ett betydande bidrag från denna forskning är åtagandet för transparens och reproducerbarhet. Tillsammans med själva benchmarken har Vidgen, Mann och Fennelly tillgängliggjort Archipelago som öppen källkod, en infrastruktur specifikt utformad för utförande och utvärdering av agenter. Archipelago gör det möjligt för andra forskare att ansluta olika modeller och testa dem mot samma professionella scenarier, vilket ger en standardiserad "sandlåda" som efterliknar en verklig arbetsstation.

Genom att släppa prompter, bedömningsmallar, guld-svar och metadata har forskarna skapat en offentlig resurs för AI-communityn. Denna strategi med öppen källkod är avsedd att förhindra "benchmark-mättnad", där modeller oavsiktligt tränas på testdata. Granulariteten i APEX-Agents metadata – som spårar inte bara om en modell lyckades, utan var i sekvensen av handlingar den misslyckades – ger utvecklare en färdplan för att förbättra agenternas uthållighet och noggrannhet i verktygsanvändning.

Implikationer för den professionella arbetsmarknaden

Implikationerna av APEX-Agents resultat för sektorn för professionella tjänster är mångfacetterade. Å ena sidan markerar förmågan hos Gemini 3 och GPT-5.2 att navigera i komplexa juridiska och finansiella filer en betydande milstolpe för AI-kapacitet. Å andra sidan tyder de låga absoluta framgångsnivåerna på att AI för närvarande är bättre lämpad som en sofistikerad assistent snarare än en fullständig ersättare för mänskliga analytiker. "Skörheten" hos agenter – deras tendens att misslyckas när de ställs inför oväntade beteenden i programvara eller tvetydiga instruktioner – förblir det främsta hindret för utbredd adoption.

För företag inom investeringsbankverksamhet och juridik ger benchmarken ett ramverk för "Build vs. Buy"-beslut. Den tyder på att även om generella modeller blir mer kapabla, är gapet mellan generellt resonerande och domänspecifikt utförande fortfarande stort. Organisationer kan behöva investera kraftigt i specialiserade "wrappers" eller finjustering för att få upp dessa modeller till de precisionsnivåer på 90 % eller 95 % som krävs för autonomt klientnära arbete.

Framtida riktningar: Vägen mot 100 %

Framåtblickande indikerar forskarna att nästa frontlinje för APEX-Agents kommer att innebära en utökning av mångfalden av professionella verktyg och att öka uppgifternas längd ytterligare. Allteftersom AI-företag släpper modeller med ännu större kontextfönster och mer sofistikerade interna resonemangskedjor, kommer benchmarken att fungera som ett bestående "stresstest" för branschen. Målet är att flytta nålen från den nuvarande framgångsgraden på 24,0 % mot en nivå av tillförlitlighet som matchar mänsklig prestation.

I slutändan etablerar APEX-Agents en ny baslinje för vad det innebär för en AI att vara "produktiv". Den flyttar samtalet bortom kuriosan med ett chattgränssnitt och in i den praktiska verkligheten av professionellt arbete. Allteftersom autonoma agenter fortsätter att utvecklas kommer de mätvärden som tillhandahålls av Vidgen, Mann och Fennelly sannolikt att förbli en kritisk måttstock för att mäta övergången från AI som pratar till AI som arbetar.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Vad är APEX-Agents-benchmarken?
A APEX-Agents-benchmarken, eller AI Productivity Index for Agents, utvärderar AI-agenters prestanda på komplexa uppgifter med långa tidshorisonter över flera applikationer inom professionella tjänster som investment banking, managementkonsulting och affärsjuridik.[1][2] Den omfattar 480 uppgifter i 33 simulerade ”världar” med olika filer och verktyg (t.ex. kalender, e-post, kalkylblad), och använder Pass@1 som det primära måttet på framgång vid enstaka körningar baserat på expertkriterier.[1] Den är utvecklad av Mercor och belyser brister i agenternas konsekvens och förmåga jämfört med mänskliga yrkesverksamma.[2][3]
Q Hur står sig GPT-5 mot Gemini 3 när det gäller professionellt resonemang?
A Gemini 3 Pro överträffar GPT-5 i professionella resonemangstest som GPQA Diamond (91,9 % mot GPT-5:s 85,7 % med ”thinking”-läge), vilket etablerar den som ledande inom rent resonemang och vetenskapliga uppgifter.[1][2] GPT-5 förblir konkurrenskraftig, särskilt med verktyg (89,4 %) och adaptivt resonemang, men ligger efter i nya, komplexa problem som ”Humanity's Last Exam” där Gemini 3 får 37,5 %.[1] Senare modeller som GPT-5.2 ligger något före Gemini 3 Pro på GPQA Diamond med 92,4 %, även om frågan fokuserar på GPT-5.[4]
Q Kan AI-agenter utföra uppgifter med långa tidshorisonter över flera applikationer?
A Ja, AI-agenter kan utföra uppgifter med långa tidshorisonter över flera applikationer, vilket demonstreras av ramverk som MUSE. MUSE uppnår toppresultat på TAC-benchmarken med uppgifter som överskrider 40–100 åtgärdssteg i flera applikationer med hjälp av en lättviktig Gemini-2.5 Flash-modell.[1] Benchmarks som APEX-Agents utvärderar specifikt AI-agenter på långsiktiga uppgifter över flera applikationer inom professionella tjänster,[8] medan SWE-Bench Pro testar förmågan i komplexa scenarier inom programvaruteknik som kräver resonemang över flera filer.[3] Pågående framsteg, inklusive exponentiella förbättringar av slutförda uppgiftslängder (en fördubbling var sjunde månad), tyder på en växande skicklighet, även om betydande gap kvarstår när det gäller tillförlitlighet i verkliga miljöer.[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!