Yapay Zeka Yayaların Bir Sonraki Hamlesini Tahmin Ediyor

Yapay Zeka
AI Predicts Pedestrians’ Next Move
OmniPredict adlı yeni bir multimodal yapay zeka, yayaların eylemlerini gerçek zamanlı olarak öngörmek için GPT-4o tarzı büyük bir model kullanıyor ve standart karşılaştırmalı testlerde geleneksel görüntüleme sistemlerini geride bırakıyor. Araştırmacılar, bu sistemin otonom araçların ve diğer makinelerin insanlar etrafındaki planlamalarını değiştirebileceğini belirtiyor; ancak sistemin "zihin okuduğu" iddiası dikkatli bir inceleme gerektiriyor.

Şehir sokaklarında, saniyeler içinde alınan en güvenli karar genellikle hiç vermek zorunda kalmadığınız karardır. Bu hafta Texas A&M'deki araştırmacılar ve Kore'deki iş ortakları, yoldaki bir insanı tespit etmekten fazlasını yapan bir yapay zeka sistemi olan OmniPredict'i tanıttı: Bu sistem, o kişinin bir sonraki adımda ne yapacağını anlamaya çalışıyor. Computers & Electrical Engineering dergisinde hakemli bir makalede açıklanan OmniPredict; bir yayanın muhtemel eylemini gerçek zamanlı olarak tahmin etmek için sahne görüntülerini, yakın çekim görünümleri, sınırlayıcı kutuları, araç telemetrisini ve basit davranışsal ipuçlarını harmanlıyor.

Sadece tespit eden değil, öngören bir model

Geleneksel otonom araç katmanları algılamayı planlamadan ayırır: kameralar ve lidar nesneleri tespit eder, ardından alt modüller nasıl fren yapılacağına veya manevra yapılacağına karar verir. OmniPredict, bu katı iş akışını görsel ve bağlamsal girdileri birleştiren ve insan davranışı hakkında olasılıksal bir tahmin üreten —birinin karşıdan karşıya mı geçeceği, görüşü engellenmiş bir alanda duraksayacağı mı, araca doğru mu bakacağı yoksa başka bir eylem mi gerçekleştireceği gibi— çok modlu bir büyük dil modeli (MLLM) mimarisiyle değiştiriyor. Laboratuvar testlerinde ekip, yerleşik yaya davranışı ölçütlerinde yaklaşık %67'lik bir tahmin doğruluğu bildirdi; bu da son teknoloji yöntemlere kıyasla yaklaşık on yüzdelik puanlık bir performans artışı anlamına geliyor.

Araştırmacılar bu ilerlemeyi, tepkisel otomasyondan öngörülü otonomiye doğru bir geçiş olarak çerçeveliyor. Proje lideri, "Şehirler öngörülemezdir. Yayalar öngörülemez olabilir," diyerek, yola atılacak olası bir adımı önceden tahmin eden bir aracın daha erken ve daha sarsıntısız bir planlama yapabileceğini ve potansiyel olarak ramak kala olayları azaltabileceğini belirtti. Sonuç, bir insan zihni okuma kehaneti değil; görsel ipuçlarını —duruş, kafa yönü, görüş engeli, araç hızı— kısa vadeli bir hareket tahminine dönüştüren istatistiksel bir motor.

OmniPredict sahneyi nasıl okuyor?

Teknik temelinde OmniPredict, video karelerini ve yapılandırılmış bağlamsal sinyalleri yorumlamak üzere uyarlanmış —sohbet ve görüntü görevleri için giderek daha fazla kullanılan türden bir mimari olan— bir MLLM kullanıyor. Girdiler arasında geniş açılı bir sahne görüntüsü, tek tek yayaların yakınlaştırılmış kesitleri, sınırlayıcı kutu koordinatları ve araç hızı gibi basit sensör verileri yer alıyor. Model, bu çok modlu akışları birlikte işliyor ve bunları ekibin sürüş bağlamları için yararlı bulduğu dört davranış kategorisine eşliyor: karşıdan karşıya geçme, görüş engeli, eylemler ve bakış.

İki özellik önem taşıyor. Birincisi, MLLM'nin çapraz modlu dikkat özelliği, modelin özel olarak elle yazılmış kurallar olmadan uzak bir vücut yönelimini yerel bir jestle —örneğin birinin telefonuna bakarken gövdesini çevirmesiyle— ilişkilendirmesine olanak tanıyor. İkincisi, sistem genelleme yapabiliyor gibi görünüyor: Araştırmacılar, OmniPredict'i yaya davranışı için iki zorlu genel veri setinde (JAAD ve WiDEVIEW) veri setine özel eğitim yapmadan çalıştırdılar ve yine de teknoloji standartlarının üzerinde sonuçlar elde ettiler. Bu genelleme temel iddiadır ve grubun OmniPredict'i ham algılamanın üzerinde oturan bir "muhakeme" katmanı olarak tanımlamasının nedeni de budur.

Karşılaştırmalı değerlendirmeler, sınırlar ve gerçeklik boşluğu

Karşılaştırmalı değerlendirmeler hikayenin sadece bir kısmını anlatıyor. Bildirilen %67'lik doğruluk ve son baz alınan değerlere göre sağlanan %10'luk iyileştirme akademik karşılaştırmalarda anlamlıdır, ancak bunlar otomatik olarak yola çıkmaya hazır bir güvenlik anlamına gelmez. Karşılaştırmalı değerlendirmeler, canlı şehir sürüşünden çok daha fazla tekrarlanan örüntü ve daha dar bir senaryo dağılımı içerir; sistemler laboratuvardan çıktığında nadir olaylar, saldırgan davranışlar ve alışılmadık hava koşulları genellikle model varsayımlarını boşa çıkarır.

Eleştirmenler, "insan zihnini okuma" ifadesinin sonucu abartma riski taşıdığına hemen dikkat çekiyor. Modelin tahminleri geçmiş verilerden öğrenilen istatistiksel ilişkilere dayanıyor: eğitim setindeki benzer görsel bağlamlar benzer sonuçlara yol açıyor. Bu güçlü bir özelliktir ancak insan niyetine veya içsel zihinsel durumlara erişimle aynı şey değildir. Uygulamada yayalar yerel kültürden, sokak tasarımından ve sosyal sinyallerden etkilenirler; bu katmanları hesaba katmayan bir yapay zeka emin ama yanlış tahminlerde bulunabilir.

Güvenlik, gizlilik ve davranışsal geri bildirim

Eğer bir araç sizin ne yapmanızı beklediğine göre planlama yaparsa, buna yanıt olarak insan davranışı değişebilir; bu durum bazen davranışsal geri bildirim döngüsü olarak adlandırılır. Araçların kendilerini tahmin edeceğini bilen insanlar daha fazla risk alabilir veya tam tersine daha temkinli hale gelebilir; her iki dinamik de modelin dayandığı istatistiksel ilişkileri değiştirebilir. Bu durum, sürekli saha içi doğrulamayı zorunlu kılmaktadır.

Sistemin görsel ve bağlamsal ipuçlarına olan güveni, gizlilik ve hakkaniyet sorularını da beraberinde getiriyor. Kentsel görüntüler üzerinde eğitilen modeller genellikle veri setlerinin önyargılarını ve kör noktalarını miras alır: kimlerin, hangi koşullar altında ve hangi kameralarla kaydedildiği gibi. Belirli cilt tonları, kıyafet türleri veya vücut şekilleri için algılamadaki zayıflıklar, farklı popülasyonlar arasında farklı tahmin kalitesine dönüşebilir. Bu nedenle mühendislik ekipleri veri seti çeşitliliğine, model hata modları hakkında şeffaflığa ve taraflı davranışları denetleme ve hafifletme prosedürlerine öncelik vermelidir.

Çok modlu LLM'lerden beyinden ilham alan mimarilere

Bu paralellik lafziden ziyade kavramsal. Mevcut yapay zeka, insan bilincini veya gerçek niyet mekanizmalarını taklit etmiyor. Ancak sinirsel organizasyondan —ağların bilgiyi nasıl yönlendirdiğinden ve uzmanlaşmış modülleri nasıl oluşturduğundan— ilham almak, mühendislerin kaotik şehir sokaklarında hız, sağlamlık ve uyarlanabilirliği daha iyi dengeleyen sistemler tasarlamasına yardımcı olabilir.

Yaygın kullanımdan önce ne yapılması gerekiyor?

OmniPredict bir araştırma prototipidir, tamamlanmış bir otonomi yığını değil. Araçlarda kullanılmadan önce, uzun vadeli saha denemelerine, uç durumlarda titiz güvenlik doğrulamalarına ve davranışsal tahminlerin hareket planlamasını nasıl etkilemesi gerektiğini gösteren entegrasyon testlerine ihtiyacı var. Düzenleyiciler ve üreticiler ayrıca, bir sistem insan eylemlerini tahmin ettiğinde kabul edilebilir yanlış pozitif ve yanlış negatif oranları için standartlara karar vermek zorunda kalacaklar —ki bu ödünleşimler net güvenlik etkileri taşır.

Son olarak proje, uygulamalı yapay zekanın tekrarlayan bir gerçeğinin altını çiziyor: Özenle seçilmiş testlerdeki doğruluk gereklidir ancak yeterli değildir. Gerçek dünya sistemleri denetlenebilir, adil ve dağılım değişikliklerine karşı sağlam olmalıdır; belirsizlik durumunda kademeli olarak devre dışı kalabilmelidirler. İnsan hareketini "öngören" makineler olasılığı, şehir içi ulaşımdaki güvenlik ve akış için caziptir, ancak araçlar bu tahminlere dayanarak geri dönülemez kararlar vermeden önce çözülmesi gereken teknik, etik ve yasal soruları da beraberinde getirir.

Texas A&M ve ortaklarının çalışmaları; algılama, bağlam ve davranışsal muhakemenin otonom sistemlerin ayrılmaz bileşenleri olduğu yakın bir geleceğe işaret ediyor. Bu gelecek, ancak yeni tahmin katmanını muhafazakar güvenlik tasarımı, dikkatli testler ve şeffaflık ile hesap verebilirlik için net kurallarla birleştirirse daha güvenli olacaktır.

Kaynaklar

  • Computers & Electrical Engineering (OmniPredict üzerine araştırma makalesi)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (nöromorfik ağlar üzerine araştırma)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q OmniPredict nedir ve ne yapar?
A OmniPredict, görsel girdileri bağlamsal sinyallerle birleştirmek ve bir yayanın muhtemel bir sonraki hamlesini gerçek zamanlı olarak tahmin etmek için büyük dil modeli mimarisi kullanan çok modlu bir yapay zeka sistemidir. Geniş açılı sahne görüntülerini, yayaların yakın plan kırpılmış görüntülerini, sınırlayıcı kutu koordinatlarını ve araç telemetrisini kabul eder; karşıdan karşıya geçme, görüşün engellendiği alanlarda duraklama veya bakış yönünü değiştirme gibi eylemler hakkında olasılıksal tahminler üretir.
Q OmniPredict yaya davranışlarını nasıl sınıflandırıyor?
A OmniPredict, çok modlu girdilerini sürüşle ilgili dört davranış kategorisiyle eşleştirir: karşıdan karşıya geçme, oklüzyon (görüş engellenmesi), eylemler ve bakış. Uzaktaki bir vücut yönelimini yerel bir jestle ilişkilendirmek için çapraz modlu dikkat (cross-modal attention) kullanır; bu da elle yazılmış kurallar olmadan tahmin yapılmasına olanak tanır ve modelin duruş, kafa yönü ve bağlam kombinasyonundan kısa vadeli hareketleri çıkarmasını sağlar.
Q Kıyaslama testlerinde performansı nasıl ve hangi uyarılar yapılıyor?
A Laboratuvar testlerinde OmniPredict, JAAD ve WiDEVIEW kıyaslamalarında yaklaşık %67 tahmin doğruluğu elde ederek son dönemdeki referans değerlerin yaklaşık 10 puan üzerine çıktı. Ancak kıyaslama performansı otomatik olarak yol güvenliği anlamına gelmez; bu veri kümeleri daha dar senaryo dağılımlarına sahiptir ve gerçek dünyadaki sürüş, modeli zorlayan nadir olaylar ve zorlu koşullar sunabilir. Eğitim verilerinin ötesinde genelleme yapma iddiası, araştırmacılar tarafından temel bir başlık olarak vurgulanmaktadır.
Q Dağıtımdan önce neler yapılması gerekiyor ve hangi endişeler mevcut?
A Yaygın kullanıma sunulmadan önce OmniPredict, uzun vadeli saha denemeleri, uç vakalar altında titiz güvenlik doğrulaması ve tahminlerin hareket planlamasını nasıl etkilediğini gösteren entegrasyon testleri gerektiren bir araştırma prototipi olmaya devam etmektedir. Çalışma ayrıca kabul edilebilir yanlış pozitif ve yanlış negatif oranlarına ilişkin standartların yanı sıra taraflılık, gizlilik ve insanların öngörücü sistemlerin etrafında hareket tarzlarını değiştirdiği davranışsal bir geri bildirim döngüsü potansiyeli için sürekli denetim yapılması çağrısında bulunuyor.
Q OmniPredict zihin mi okuyor yoksa içsel zihinsel durumlara mı erişiyor?
A OmniPredict zihin okumaya mı çalışıyor? Araştırmacılar, sistemin içsel niyet veya bilince erişmediğini vurguluyor; sistem, görsel ipuçlarını ve bağlamsal verileri geçmiş verilerden öğrenilen kısa vadeli hareketlerin istatistiksel tahminlerine dönüştürür; bu tahminler, durumlar eğitim modellerinden farklı olduğunda kendinden emin olsa dahi yanlış olabilir.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!