Benchmarkowanie rozumowania profesjonalnego: Gemini 3 i GPT-5.2 liderami wydajności złożonych agentów AI

Breaking News Technology
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Opublikowano nowy benchmark o nazwie APEX-Agents, mający na celu ocenę skuteczności agentów AI w wykonywaniu długofalowych, międzyaplikacyjnych zadań typowych dla bankierów inwestycyjnych i prawników korporacyjnych. Badanie wykazuje, że choć zaawansowane modele, takie jak Gemini 3 Flash i GPT-5.2, czynią znaczące postępy, złożoność rzeczywistych środowisk profesjonalnych wciąż stanowi ogromne wyzwanie dla systemów autonomicznych.

Krajobraz sztucznej inteligencji przechodzi fundamentalną zmianę – od pasywnych modeli konwersacyjnych w stronę autonomicznych „agentów”, zdolnych do wykonywania złożonych, wieloetapowych procesów roboczych. W miarę jak systemy te zbliżają się do integracji w środowiskach profesjonalnych o wysokiej stawce, potrzeba rygorystycznej, specyficznej dla danej dziedziny oceny stała się krytyczna. Badacze Bertie Vidgen, Austin Mann i Abby Fennelly wypełnili tę lukę, wprowadzając AI Productivity Index for Agents (APEX-Agents) – nowy benchmark zaprojektowany do pomiaru efektywności AI w zadaniach zarezerwowanych tradycyjnie dla analityków bankowości inwestycyjnej, konsultantów ds. zarządzania i prawników korporacyjnych.

Przejście od chatbotów do autonomicznych agentów

W ciągu ostatnich kilku lat złotym standardem oceny wydajności Dużych Modeli Językowych (LLM) były benchmarki mierzące statyczne rozumowanie lub wyszukiwanie wiedzy ogólnej. Jednak w obliczu zwrotu branży w stronę przepływów pracy opartych na agentach (agentic workflows) – gdzie od AI oczekuje się poruszania po systemach plików, korzystania z oprogramowania i wykonywania sekwencji działań w dłuższym czasie – tradycyjne metryki okazały się niewystarczające. Benchmark APEX-Agents stanowi odejście od prostych interfejsów czatowych, koncentrując się zamiast tego na zadaniach „długookresowych”, które wymagają stałego zarządzania stanem i koordynacji między aplikacjami.

Zespół badawczy zidentyfikował trzy główne filary usług profesjonalnych: bankowość inwestycyjną, doradztwo i prawo. Dziedziny te zostały wybrane, ponieważ wymagają wysokiego poziomu precyzji, zdolności do syntezy danych z wielu źródeł (takich jak arkusze kalkulacyjne, pliki PDF i wewnętrzne bazy danych) oraz umiejętności postępowania zgodnie ze złożonymi, wieloetapowymi instrukcjami. Przenosząc punkt ciężkości na te sektory poznawcze o wysokiej wartości, APEX-Agents zapewnia dokładniejsze odzwierciedlenie potencjalnego wpływu AI na nowoczesną siłę roboczą niż benchmarki ogólnego przeznaczenia.

Metodologia rozumowania profesjonalnego

Złożoność APEX-Agents tkwi w nacisku na wykonanie zadań o „długim horyzoncie”. W przeciwieństwie do standardowego promptu proszącego o podsumowanie dokumentu, zadanie w ramach tego benchmarku może wymagać od agenta przetworzenia umowy przejęcia, porównania konkretnych klauzul z modelem finansowym w Excelu, a następnie sporządzenia formalnego memorandum w edytorze tekstu. Zadania te nie są wykonywane w próżni; benchmark zapewnia realistyczne środowisko pracy wraz z ustrukturyzowanymi systemami plików i profesjonalnym oprogramowaniem.

Aby zapewnić wiarygodność wyników, badacze wykorzystali metrykę Pass@1. Ta rygorystyczna metoda oceny wymaga od agenta poprawnego wykonania zadania przy pierwszej próbie, co odzwierciedla oczekiwania w środowisku profesjonalnym, gdzie stały nadzór lub wielokrotne powtórzenia niwelowałyby zyski z wydajności płynące z użycia AI. Benchmark składa się z 480 odrębnych zadań (n=480), z których każdemu towarzyszy szczegółowy schemat oceniania oraz „gold outputs” – zweryfikowane przez człowieka poprawne odpowiedzi służące do oceny wydajności AI.

Analiza wydajności: Nowa hierarchia inteligencji

Wyniki początkowej fazy testów ujawniają wyraźną hierarchię wśród najbardziej zaawansowanych modeli w branży. Zgodnie z danymi, Gemini 3 Flash (Thinking=High) okazał się najskuteczniejszy, osiągając wynik Pass@1 na poziomie 24,0%. Tuż za nim uplasowały się GPT-5.2 (Thinking=High) oraz Claude Opus 4.5 (Thinking=High). Czołówkę rankingu zamknął Gemini 3 Pro (Thinking=High). Wyniki te są szczególnie godne uwagi, ponieważ podkreślają skuteczność trybów „myślenia” lub „rozumowania” – konfiguracji, w których model otrzymuje dodatkowy czas obliczeniowy na procesowanie wewnętrznej logiki przed wygenerowaniem działania zewnętrznego.

Sukces wariantów „Thinking=High” we wszystkich głównych rodzinach modeli – Gemini od Google, GPT od OpenAI i Claude od Anthropic – sugeruje, że zdolność do samokorekty i wewnętrznego planowania jest głównym czynnikiem wyróżniającym w zadaniach klasy profesjonalnej. Niemniej jednak, nawet najwyższy wynik 24,0% służy jako trzeźwiące przypomnienie o obecnym stanie techniki. Choć modele te robią znaczące postępy w rozumowaniu, blisko trzy czwarte profesjonalnych zadań w benchmarku pozostało poza ich zasięgiem, często z powodu błędów w integracji narzędzi lub kumulowania się drobnych pomyłek podczas długotrwałego wykonywania zadań.

Otwarcie standardów profesjonalnych: Archipelago

Znaczącym wkładem tego badania jest zaangażowanie w przejrzystość i powtarzalność wyników. Wraz z samym benchmarkiem, Vidgen, Mann i Fennelly udostępnili w modelu open-source Archipelago – infrastrukturę zaprojektowaną specjalnie do uruchamiania i oceny agentów. Archipelago pozwala innym badaczom na podłączanie różnych modeli i testowanie ich w tych samych profesjonalnych scenariuszach, zapewniając standaryzowaną „piaskownicę” (sandbox), która naśladuje rzeczywiste stanowisko pracy.

Udostępniając prompty, schematy oceniania, wzorcowe wyniki i metadane, badacze stworzyli publiczne narzędzie dla społeczności AI. To podejście open-source ma na celu zapobieganie „nasyceniu benchmarku”, w którym modele są nieumyślnie trenowane na danych testowych. Szczegółowość metadanych APEX-Agents – które śledzą nie tylko to, czy model odniósł sukces, ale także w którym punkcie sekwencji działań zawiódł – dostarcza deweloperom mapę drogową do poprawy wytrwałości agentycznej i dokładności korzystania z narzędzi.

Konsekwencje dla pracy korporacyjnej

Wnioski z APEX-Agents dla sektora usług profesjonalnych są wieloaspektowe. Z jednej strony, zdolność Gemini 3 i GPT-5.2 do poruszania się po złożonych plikach prawnych i finansowych stanowi kamień milowy w rozwoju możliwości AI. Z drugiej strony, niskie bezwzględne wskaźniki sukcesu sugerują, że AI jest obecnie lepiej przystosowana do roli zaawansowanego asystenta niż pełnego zastępstwa dla ludzkich analityków. „Kruchość” agentów – ich tendencja do zawodzenia w obliczu nieoczekiwanego zachowania oprogramowania lub niejednoznacznych instrukcji – pozostaje główną przeszkodą w powszechnym wdrożeniu.

Dla firm z sektora bankowości inwestycyjnej i prawa benchmark ten stanowi ramy dla decyzji typu „Buduj vs. Kupuj” (Build vs. Buy). Sugeruje on, że choć modele ogólnego przeznaczenia stają się coraz bardziej sprawne, przepaść między ogólnym rozumowaniem a specyficznym dla danej dziedziny wykonaniem jest wciąż ogromna. Organizacje mogą potrzebować znacznych inwestycji w wyspecjalizowane „nakładki” (wrappers) lub dostrajanie (fine-tuning), aby podnieść te modele do poziomu dokładności 90% lub 95%, wymaganego w autonomicznej pracy z klientem.

Przyszłe kierunki: Droga do 100%

Patrząc w przyszłość, badacze wskazują, że kolejnym etapem rozwoju APEX-Agents będzie zwiększenie różnorodności profesjonalnych narzędzi oraz dalsze wydłużanie zadań. W miarę jak firmy AI wypuszczają modele z jeszcze większymi oknami kontekstowymi i bardziej wyrafinowanymi wewnętrznymi łańcuchami rozumowania, benchmark ten będzie służył jako stały „test obciążeniowy” dla branży. Celem jest przesunięcie granicy z obecnych 24,0% sukcesu w stronę poziomu niezawodności dorównującego wynikom pracy człowieka.

Ostatecznie APEX-Agents ustanawia nowy punkt odniesienia dla tego, co oznacza dla AI bycie „produktywną”. Przenosi dyskusję poza nowość, jaką jest interfejs czatowy, w stronę praktycznych aspektów pracy zawodowej. W miarę ewolucji autonomicznych agentów, metryki dostarczone przez Vidgena, Manna i Fennelly prawdopodobnie pozostaną krytycznym miernikiem przejścia od AI, która mówi, do AI, która pracuje.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Czym jest benchmark APEX-Agents?
A Benchmark APEX-Agents, czyli AI Productivity Index for Agents, ocenia wydajność agentów AI w złożonych, długofalowych zadaniach międzyaplikacyjnych w usługach profesjonalnych, takich jak bankowość inwestycyjna, doradztwo strategiczne i prawo korporacyjne.[1][2] Obejmuje on 480 zadań w 33 symulowanych „światach” z różnorodnymi plikami i narzędziami (np. Kalendarz, Poczta, Arkusze kalkulacyjne), wykorzystując Pass@1 jako główny wskaźnik sukcesu w pojedynczym przebiegu w oparciu o rubryki eksperckie.[1] Opracowany przez firmę Mercor, podkreśla on luki w spójności i możliwościach agentów w porównaniu z ludzkimi profesjonalistami.[2][3]
Q Jak GPT-5 wypada w porównaniu z Gemini 3 pod względem profesjonalnego rozumowania?
A Gemini 3 Pro przewyższa GPT-5 w benchmarkach profesjonalnego rozumowania, takich jak GPQA Diamond (91,9% vs 85,7% w przypadku GPT-5 z trybem myślenia), ugruntowując swoją pozycję lidera w czystym rozumowaniu i zadaniach naukowych.[1][2] GPT-5 pozostaje konkurencyjny, szczególnie przy użyciu narzędzi (89,4%) i rozumowaniu adaptacyjnym, ale ustępuje w nowych, złożonych problemach, takich jak Humanity's Last Exam, gdzie Gemini 3 uzyskuje wynik 37,5%.[1] Późniejsze modele, takie jak GPT-5.2, nieznacznie wyprzedzają Gemini 3 Pro w GPQA Diamond z wynikiem 92,4%, choć zapytanie skupia się na GPT-5.[4]
Q Czy agenci AI potrafią wykonywać długofalowe zadania międzyaplikacyjne?
A Tak, agenci AI potrafią wykonywać długofalowe zadania międzyaplikacyjne, co demonstrują systemy takie jak MUSE, który osiąga najnowocześniejsze wyniki w benchmarku TAC, obejmującym zadania przekraczające 40–100 kroków działania w wielu aplikacjach przy użyciu lekkiego modelu Gemini-2.5 Flash.[1] Benchmarki takie jak APEX-Agents specyficznie oceniają agentów AI w długofalowych zadaniach międzyaplikacyjnych w usługach profesjonalnych,[8] podczas gdy SWE-Bench Pro testuje możliwości w złożonych scenariuszach inżynierii oprogramowania wymagających rozumowania międzyplikowego.[3] Bieżące postępy, w tym wykładnicza poprawa długości wykonywanych zadań (podwojenie co 7 miesięcy), wskazują na rosnącą biegłość, choć wciąż pozostają znaczne luki w niezawodności w rzeczywistych zastosowaniach.[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!