Profesyonel Akıl Yürütme Kıyaslaması: Gemini 3 ve GPT-5.2 Karmaşık Yapay Zeka Ajanı Performansında Lider

Breaking News Teknoloji
Macro close-up of illuminated blue fiber optics connecting polished gold metallic nodes on a dark, sleek surface.
4K Quality
Yatırım bankacıları ve kurumsal avukatlar tarafından gerçekleştirilen uzun vadeli ve uygulamalar arası görevlerin yapay zeka ajanları tarafından ne kadar etkili bir şekilde yürütülebildiğini değerlendirmek amacıyla APEX-Agents adlı yeni bir kıyaslama ölçeği yayınlandı. Çalışma, Gemini 3 Flash ve GPT-5.2 gibi yüksek akıl yürütme kapasitesine sahip modellerin önemli ilerlemeler kaydettiğini, ancak gerçekçi profesyonel ortamların karmaşıklığının otonom sistemler için hâlâ ciddi bir zorluk teşkil ettiğini ortaya koyuyor.

Yapay zeka dünyası, pasif konuşma modellerinden karmaşık, çok adımlı iş akışlarını yürütebilen otonom "ajanlara" doğru temel bir değişim geçiriyor. Bu sistemler, yüksek riskli profesyonel ortamlara entegrasyona yaklaştıkça, titiz ve alana özgü değerlendirme ihtiyacı hiç bu kadar kritik olmamıştı. Araştırmacılar Bertie Vidgen, Austin Mann ve Abby Fennelly, yatırım bankacılığı analistleri, yönetim danışmanları ve kurumsal avukatlar için ayrılmış görevlerde yapay zekanın etkinliğini ölçmek üzere tasarlanmış yeni bir kıstas olan Ajanlar için Yapay Zeka Verimlilik Endeksi'ni (APEX-Agents) sunarak bu boşluğu doldurdular.

Sohbet Robotlarından Otonom Ajanlara Geçiş

Son birkaç yıldır, Büyük Dil Modeli (LLM) performansı için altın standart, statik akıl yürütmeyi veya genel bilgi geri çağrımını ölçen kıstaslara dayanıyordu. Ancak sektör; yapay zekanın dosya sistemlerinde gezinmesinin, yazılım araçlarını kullanmasının ve uzun süreler boyunca bir dizi eylemi gerçekleştirmesinin beklendiği ajan odaklı iş akışlarına yöneldikçe, geleneksel metriklerin yetersiz olduğu kanıtlandı. APEX-Agents kıstası, bu basit sohbet arayüzlerinden bir kopuşu temsil ediyor ve bunun yerine kalıcı durum yönetimi ve uygulamalar arası koordinasyon gerektiren "uzun vadeli" görevlere odaklanıyor.

Araştırma ekibi profesyonel hizmetlerin üç temel sütununu belirledi: yatırım bankacılığı, danışmanlık ve hukuk. Bu alanlar; yüksek düzeyde hassasiyet, birden fazla kaynaktan (elektronik tablolar, PDF'ler ve dahili veri tabanları gibi) verileri sentezleme yeteneği ve karmaşık, çok aşamalı talimatları takip etme kapasitesi gerektirdikleri için seçildi. APEX-Agents, odağı bu yüksek değerli bilişsel sektörlere kaydırarak, yapay zekanın modern iş gücü üzerindeki potansiyel etkisini genel amaçlı kıstaslardan daha doğru bir şekilde yansıtıyor.

Profesyonel Akıl Yürütmenin Metodolojisi

APEX-Agents'ın karmaşıklığı, "uzun vadeli" yürütme konusundaki ısrarında yatmaktadır. Bir belgenin özetini isteyen standart bir istemin aksine, bu kıstas kapsamındaki bir görev, bir ajanın bir satın alma sözleşmesini incelemesini, belirli maddeleri Excel'deki bir finansal modelle çapraz referanslamasını ve ardından bir kelime işlemcide resmi bir memorandum taslağı hazırlamasını gerektirebilir. Bu görevler bir boşlukta gerçekleştirilmez; kıstas, yapılandırılmış dosya sistemleri ve profesyonel düzeyde yazılım araçlarıyla tamamlanmış gerçekçi bir çalışma ortamı sağlar.

Sonuçların güvenilirliğini sağlamak için araştırmacılar Pass@1 metriğini kullandılar. Bu titiz puanlama yöntemi, ajanın görevi ilk denemesinde doğru şekilde tamamlamasını gerektirir; bu da sürekli denetimin veya birden fazla yeniden denemenin yapay zeka kullanmanın verimlilik kazanımlarını ortadan kaldıracağı profesyonel bir ortamın beklentilerini yansıtır. Kıstas, her biri ayrıntılı bir değerlendirme ölçeği ve yapay zekanın performansını derecelendirmek için kullanılan insan tarafından doğrulanmış doğru cevaplar olan "altın çıktılar" eşliğinde 480 ayrı görevden (n=480) oluşmaktadır.

Performans Analizi: Yeni Bir Zeka Hiyerarşisi

İlk test aşamasının sonuçları, sektörün en gelişmiş modelleri arasında net bir hiyerarşi olduğunu ortaya koyuyor. Verilere göre, Gemini 3 Flash (Thinking=High), %24,0'lık bir Pass@1 puanı elde ederek en iyi performansı gösteren model oldu. Bunu yakından GPT-5.2 (Thinking=High) ve Claude Opus 4.5 (Thinking=High) izledi. Gemini 3 Pro (Thinking=High) da liderlik tablosunun üst sıralarını tamamladı. Bu sonuçlar, harici bir eylem oluşturmadan önce modelin dahili mantığı işlemesi için ek hesaplama süresi verildiği yapılandırmalar olan "düşünme" veya "akıl yürütme" modlarının etkinliğini vurguladığı için özellikle dikkat çekicidir.

Tüm ana model ailelerinde (Google'ın Gemini'si, OpenAI'ın GPT'si ve Anthropic'in Claude'u) "Thinking=High" varyantlarının başarısı, dahili olarak kendi kendini düzeltme ve planlama yeteneğinin profesyonel düzeydeki görevlerde birincil ayırt edici olduğunu göstermektedir. Bununla birlikte, %24,0'lık en yüksek puan bile teknolojinin mevcut durumu hakkında düşündürücü bir hatırlatmadır. Bu modeller akıl yürütmede önemli adımlar atarken, kıstastaki profesyonel görevlerin neredeyse dörtte üçü, genellikle araç entegrasyonundaki başarısızlıklar veya uzun süreli yürütme sırasında küçük hataların birikmesi nedeniyle ulaşılamaz durumda kaldı.

Profesyonel Standartları Açık Kaynağa Taşımak: Archipelago

Bu araştırmanın önemli bir katkısı, şeffaflık ve tekrarlanabilirlik taahhüdüdür. Kıstasın kendisiyle birlikte Vidgen, Mann ve Fennelly, ajan yürütme ve değerlendirmesi için özel olarak tasarlanmış bir altyapı olan Archipelago'yu açık kaynak olarak sundular. Archipelago, diğer araştırmacıların farklı modelleri sisteme dahil etmelerine ve bunları gerçek dünya iş istasyonunu taklit eden standart bir "kum havuzunda" aynı profesyonel senaryolara karşı test etmelerine olanak tanır.

Araştırmacılar istemleri, değerlendirme ölçeklerini, altın çıktıları ve meta verileri yayınlayarak yapay zeka topluluğu için bir kamu hizmeti oluşturdular. Bu açık kaynaklı yaklaşım, modellerin yanlışlıkla test verileri üzerinde eğitildiği "kıstas doygunluğunu" önlemeyi amaçlamaktadır. APEX-Agents meta verilerinin ayrıntı düzeyi (sadece bir modelin başarılı olup olmadığını değil, eylem dizisinin neresinde başarısız olduğunu da takip eder), geliştiricilere ajan kalıcılığını ve araç kullanım doğruluğunu iyileştirmek için bir yol haritası sunar.

Kurumsal İş Gücü Üzerindeki Etkiler

APEX-Agents bulgularının profesyonel hizmetler sektörü için etkileri çok yönlüdür. Bir yandan, Gemini 3 ve GPT-5.2'nin karmaşık yasal ve finansal dosyalarda gezinme yeteneği, yapay zeka yeteneklerinde önemli bir dönüm noktasını işaret ediyor. Öte yandan, düşük mutlak başarı oranları, yapay zekanın şu anda insan analistlerin tam bir ikamesi olmaktan ziyade gelişmiş bir asistan olarak daha uygun olduğunu gösteriyor. Ajanların "kırılganlığı" (beklenmedik yazılım davranışları veya belirsiz talimatlarla karşılaştıklarında başarısız olma eğilimleri), yaygın benimsemenin önündeki temel engel olmaya devam ediyor.

For firms in investment banking and law, the benchmark provides a framework for "Build vs. Buy" decisions. It suggests that while general-purpose models are becoming more capable, the gap between general reasoning and domain-specific execution is still vast. Organizations may need to invest heavily in specialized "wrappers" or fine-tuning to bring these models up to the 90% or 95% accuracy levels required for autonomous client-facing work.

Gelecekteki Yönelimler: %100'e Giden Yol

Geleceğe bakıldığında araştırmacılar, APEX-Agents için bir sonraki sınırın profesyonel araçların çeşitliliğini artırmak ve görevlerin süresini daha da uzatmak olacağını belirtiyorlar. Yapay zeka şirketleri daha geniş bağlam pencerelerine ve daha gelişmiş dahili akıl yürütme zincirlerine sahip modeller piyasaya sürdükçe, kıstas sektör için kalıcı bir "stres testi" görevi görecektir. Hedef, mevcut %24,0'lık başarı oranını insan çıktısıyla eşleşen bir güvenilirlik seviyesine taşımaktır.

Nihayetinde APEX-Agents, bir yapay zekanın "üretken" olmasının ne anlama geldiğine dair yeni bir temel oluşturuyor. Tartışmayı sohbet arayüzünün yeniliğinin ötesine, profesyonel emeğin pratiklerine taşıyor. Otonom ajanlar gelişmeye devam ettikçe, Vidgen, Mann ve Fennelly tarafından sağlanan metrikler, konuşan yapay zekadan çalışan yapay zekaya geçişi ölçmek için muhtemelen kritik bir mihenk taşı olmaya devam edecektir.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q APEX-Agents kıyaslaması nedir?
A APEX-Agents kıyaslaması veya Ajanlar için Yapay Zeka Üretkenlik Endeksi, yapay zeka ajanlarının yatırım bankacılığı, yönetim danışmanlığı ve kurumsal hukuk gibi profesyonel hizmetlerdeki karmaşık, uzun vadeli ve uygulamalar arası görevlerdeki performansını değerlendirir.[1][2] Uzman rubriklerine dayalı tek seferlik başarı için birincil metrik olarak Pass@1'i kullanan bu kıyaslama, çeşitli dosyalar ve araçlar (örneğin Takvim, E-posta, Hesap Çizelgeleri) içeren 33 simüle edilmiş 'dünya' genelinde 480 görev sunar.[1] Mercor tarafından geliştirilen bu çalışma, ajanların tutarlılığı ve yetenekleri ile insan profesyoneller arasındaki boşlukları vurgular.[2][3]
Q GPT-5, profesyonel muhakeme konusunda Gemini 3 ile nasıl karşılaştırılır?
A Gemini 3 Pro, GPQA Diamond (%91,9'a karşı GPT-5'in düşünme özelliğiyle %85,7) gibi profesyonel muhakeme kıyaslamalarında GPT-5'i geride bırakarak saf muhakeme ve bilimsel görevlerde liderliğini pekiştiriyor.[1][2] GPT-5, özellikle araç kullanımı (%89,4) ve uyarlanabilir muhakeme ile rekabetçi kalmaya devam ediyor; ancak Gemini 3'ün %37,5 puan aldığı 'Humanity's Last Exam' gibi yeni ve karmaşık problemlerde geride kalıyor.[1] Sorgu GPT-5'e odaklansa da, GPT-5.2 gibi daha sonraki modeller GPQA Diamond'da %92,4 ile Gemini 3 Pro'yu az farkla geçmektedir.[4]
Q Yapay zeka ajanları uzun vadeli ve uygulamalar arası görevleri yürütebilir mi?
A Evet, yapay zeka ajanları uzun vadeli ve uygulamalar arası görevleri yürütebilir; bu durum, hafif bir Gemini-2.5 Flash modeli kullanarak birden fazla uygulama genelinde 40-100 eylem adımını aşan görevleri içeren TAC kıyaslamasında üst düzey performans sergileyen MUSE gibi çerçevelerle kanıtlanmıştır.[1] APEX-Agents gibi kıyaslamalar, yapay zeka ajanlarını özellikle uzun vadeli, uygulamalar arası profesyonel hizmet görevlerinde değerlendirirken;[8] SWE-Bench Pro, dosyalar arası muhakeme gerektiren karmaşık yazılım mühendisliği senaryolarındaki yetenekleri test eder.[3] Görev tamamlama uzunluğundaki üstel iyileşmeler (her 7 ayda bir ikiye katlanma) dahil olmak üzere devam eden ilerlemeler, artan bir yetkinliğe işaret etse de gerçek dünya güvenilirliğinde hala önemli boşluklar bulunmaktadır.[2][4]

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!