What is OmniPredict and what does it do?

OmniPredict is a multimodal AI system that uses a large language model architecture to fuse visual inputs with contextual signals and forecast a pedestrian's likely next move in real time. It accepts wide-angle scene images, close-up crops of pedestrians, bounding-box coordinates, and vehicle telemetry, and outputs probabilistic predictions about actions such as crossing, pausing in occluded areas, or shifting gaze.

How does OmniPredict classify pedestrian behavior?

OmniPredict maps its multimodal inputs to four behavior categories relevant for driving: crossing, occlusion, actions, and gaze. It uses cross-modal attention to link a distant body orientation with a local gesture, enabling predictions without hand-coded rules and allowing the model to infer short-term movement from the combination of pose, head direction, and context.

How well does it perform on benchmarks, and what are the caveats?

In lab tests, OmniPredict achieved about 67% prediction accuracy on JAAD and WiDEVIEW benchmarks, roughly 10 percentage points higher than recent baselines. Yet benchmark performance does not automatically translate to road safety; these datasets have narrower scenario distributions, and real-world driving can present rare events and adversarial conditions that challenge the model. The claim of generalisation beyond training data is highlighted by researchers as a key headline.

What needs to happen before deployment and what concerns exist?

Before deployment, OmniPredict remains a research prototype requiring long-term field trials, rigorous safety validation under corner cases, and integration tests showing how predictions influence motion planning. The work also calls for standards on acceptable false-positive and false-negative rates, plus ongoing auditing for bias, privacy, and the potential for a behavioural feedback loop where people change how they act around anticipatory systems.

Does OmniPredict read minds or access internal mental states?

Is OmniPredict attempting to read minds? The researchers emphasize that the system is not accessing internal intent or consciousness; it transforms visual cues and contextual data into statistical forecasts of near-term movement learned from past data, which can be confident yet incorrect if situations differ from training patterns.

OmniPredict Yayaların Sonraki Hamlelerini Tahmin Ediyor

Şehir sokaklarında, saniyeler içinde alınan en güvenli karar genellikle hiç vermek zorunda kalmadığınız karardır. Bu hafta Texas A&M'deki araştırmacılar ve Kore'deki iş ortakları, yoldaki bir insanı tespit etmekten fazlasını yapan bir yapay zeka sistemi olan OmniPredict'i tanıttı: Bu sistem, o kişinin bir sonraki adımda ne yapacağını anlamaya çalışıyor. Computers & Electrical Engineering dergisinde hakemli bir makalede açıklanan OmniPredict; bir yayanın muhtemel eylemini gerçek zamanlı olarak tahmin etmek için sahne görüntülerini, yakın çekim görünümleri, sınırlayıcı kutuları, araç telemetrisini ve basit davranışsal ipuçlarını harmanlıyor.

Sadece tespit eden değil, öngören bir model

Geleneksel otonom araç katmanları algılamayı planlamadan ayırır: kameralar ve lidar nesneleri tespit eder, ardından alt modüller nasıl fren yapılacağına veya manevra yapılacağına karar verir. OmniPredict, bu katı iş akışını görsel ve bağlamsal girdileri birleştiren ve insan davranışı hakkında olasılıksal bir tahmin üreten —birinin karşıdan karşıya mı geçeceği, görüşü engellenmiş bir alanda duraksayacağı mı, araca doğru mu bakacağı yoksa başka bir eylem mi gerçekleştireceği gibi— çok modlu bir büyük dil modeli (MLLM) mimarisiyle değiştiriyor. Laboratuvar testlerinde ekip, yerleşik yaya davranışı ölçütlerinde yaklaşık %67'lik bir tahmin doğruluğu bildirdi; bu da son teknoloji yöntemlere kıyasla yaklaşık on yüzdelik puanlık bir performans artışı anlamına geliyor.

Araştırmacılar bu ilerlemeyi, tepkisel otomasyondan öngörülü otonomiye doğru bir geçiş olarak çerçeveliyor. Proje lideri, "Şehirler öngörülemezdir. Yayalar öngörülemez olabilir," diyerek, yola atılacak olası bir adımı önceden tahmin eden bir aracın daha erken ve daha sarsıntısız bir planlama yapabileceğini ve potansiyel olarak ramak kala olayları azaltabileceğini belirtti. Sonuç, bir insan zihni okuma kehaneti değil; görsel ipuçlarını —duruş, kafa yönü, görüş engeli, araç hızı— kısa vadeli bir hareket tahminine dönüştüren istatistiksel bir motor.

OmniPredict sahneyi nasıl okuyor?

Teknik temelinde OmniPredict, video karelerini ve yapılandırılmış bağlamsal sinyalleri yorumlamak üzere uyarlanmış —sohbet ve görüntü görevleri için giderek daha fazla kullanılan türden bir mimari olan— bir MLLM kullanıyor. Girdiler arasında geniş açılı bir sahne görüntüsü, tek tek yayaların yakınlaştırılmış kesitleri, sınırlayıcı kutu koordinatları ve araç hızı gibi basit sensör verileri yer alıyor. Model, bu çok modlu akışları birlikte işliyor ve bunları ekibin sürüş bağlamları için yararlı bulduğu dört davranış kategorisine eşliyor: karşıdan karşıya geçme, görüş engeli, eylemler ve bakış.

İki özellik önem taşıyor. Birincisi, MLLM'nin çapraz modlu dikkat özelliği, modelin özel olarak elle yazılmış kurallar olmadan uzak bir vücut yönelimini yerel bir jestle —örneğin birinin telefonuna bakarken gövdesini çevirmesiyle— ilişkilendirmesine olanak tanıyor. İkincisi, sistem genelleme yapabiliyor gibi görünüyor: Araştırmacılar, OmniPredict'i yaya davranışı için iki zorlu genel veri setinde (JAAD ve WiDEVIEW) veri setine özel eğitim yapmadan çalıştırdılar ve yine de teknoloji standartlarının üzerinde sonuçlar elde ettiler. Bu genelleme temel iddiadır ve grubun OmniPredict'i ham algılamanın üzerinde oturan bir "muhakeme" katmanı olarak tanımlamasının nedeni de budur.

Karşılaştırmalı değerlendirmeler, sınırlar ve gerçeklik boşluğu

Karşılaştırmalı değerlendirmeler hikayenin sadece bir kısmını anlatıyor. Bildirilen %67'lik doğruluk ve son baz alınan değerlere göre sağlanan %10'luk iyileştirme akademik karşılaştırmalarda anlamlıdır, ancak bunlar otomatik olarak yola çıkmaya hazır bir güvenlik anlamına gelmez. Karşılaştırmalı değerlendirmeler, canlı şehir sürüşünden çok daha fazla tekrarlanan örüntü ve daha dar bir senaryo dağılımı içerir; sistemler laboratuvardan çıktığında nadir olaylar, saldırgan davranışlar ve alışılmadık hava koşulları genellikle model varsayımlarını boşa çıkarır.

Eleştirmenler, "insan zihnini okuma" ifadesinin sonucu abartma riski taşıdığına hemen dikkat çekiyor. Modelin tahminleri geçmiş verilerden öğrenilen istatistiksel ilişkilere dayanıyor: eğitim setindeki benzer görsel bağlamlar benzer sonuçlara yol açıyor. Bu güçlü bir özelliktir ancak insan niyetine veya içsel zihinsel durumlara erişimle aynı şey değildir. Uygulamada yayalar yerel kültürden, sokak tasarımından ve sosyal sinyallerden etkilenirler; bu katmanları hesaba katmayan bir yapay zeka emin ama yanlış tahminlerde bulunabilir.

Güvenlik, gizlilik ve davranışsal geri bildirim

Eğer bir araç sizin ne yapmanızı beklediğine göre planlama yaparsa, buna yanıt olarak insan davranışı değişebilir; bu durum bazen davranışsal geri bildirim döngüsü olarak adlandırılır. Araçların kendilerini tahmin edeceğini bilen insanlar daha fazla risk alabilir veya tam tersine daha temkinli hale gelebilir; her iki dinamik de modelin dayandığı istatistiksel ilişkileri değiştirebilir. Bu durum, sürekli saha içi doğrulamayı zorunlu kılmaktadır.

Sistemin görsel ve bağlamsal ipuçlarına olan güveni, gizlilik ve hakkaniyet sorularını da beraberinde getiriyor. Kentsel görüntüler üzerinde eğitilen modeller genellikle veri setlerinin önyargılarını ve kör noktalarını miras alır: kimlerin, hangi koşullar altında ve hangi kameralarla kaydedildiği gibi. Belirli cilt tonları, kıyafet türleri veya vücut şekilleri için algılamadaki zayıflıklar, farklı popülasyonlar arasında farklı tahmin kalitesine dönüşebilir. Bu nedenle mühendislik ekipleri veri seti çeşitliliğine, model hata modları hakkında şeffaflığa ve taraflı davranışları denetleme ve hafifletme prosedürlerine öncelik vermelidir.

Çok modlu LLM'lerden beyinden ilham alan mimarilere

Bu paralellik lafziden ziyade kavramsal. Mevcut yapay zeka, insan bilincini veya gerçek niyet mekanizmalarını taklit etmiyor. Ancak sinirsel organizasyondan —ağların bilgiyi nasıl yönlendirdiğinden ve uzmanlaşmış modülleri nasıl oluşturduğundan— ilham almak, mühendislerin kaotik şehir sokaklarında hız, sağlamlık ve uyarlanabilirliği daha iyi dengeleyen sistemler tasarlamasına yardımcı olabilir.

Yaygın kullanımdan önce ne yapılması gerekiyor?

OmniPredict bir araştırma prototipidir, tamamlanmış bir otonomi yığını değil. Araçlarda kullanılmadan önce, uzun vadeli saha denemelerine, uç durumlarda titiz güvenlik doğrulamalarına ve davranışsal tahminlerin hareket planlamasını nasıl etkilemesi gerektiğini gösteren entegrasyon testlerine ihtiyacı var. Düzenleyiciler ve üreticiler ayrıca, bir sistem insan eylemlerini tahmin ettiğinde kabul edilebilir yanlış pozitif ve yanlış negatif oranları için standartlara karar vermek zorunda kalacaklar —ki bu ödünleşimler net güvenlik etkileri taşır.

Son olarak proje, uygulamalı yapay zekanın tekrarlayan bir gerçeğinin altını çiziyor: Özenle seçilmiş testlerdeki doğruluk gereklidir ancak yeterli değildir. Gerçek dünya sistemleri denetlenebilir, adil ve dağılım değişikliklerine karşı sağlam olmalıdır; belirsizlik durumunda kademeli olarak devre dışı kalabilmelidirler. İnsan hareketini "öngören" makineler olasılığı, şehir içi ulaşımdaki güvenlik ve akış için caziptir, ancak araçlar bu tahminlere dayanarak geri dönülemez kararlar vermeden önce çözülmesi gereken teknik, etik ve yasal soruları da beraberinde getirir.

Texas A&M ve ortaklarının çalışmaları; algılama, bağlam ve davranışsal muhakemenin otonom sistemlerin ayrılmaz bileşenleri olduğu yakın bir geleceğe işaret ediyor. Bu gelecek, ancak yeni tahmin katmanını muhafazakar güvenlik tasarımı, dikkatli testler ve şeffaflık ile hesap verebilirlik için net kurallarla birleştirirse daha güvenli olacaktır.

Kaynaklar

Computers & Electrical Engineering (OmniPredict üzerine araştırma makalesi)
Texas A&M University College of Engineering
Korea Advanced Institute of Science and Technology (KAIST)
Nature Machine Intelligence (nöromorfik ağlar üzerine araştırma)
McGill University / The Neuro (Montreal Neurological Institute-Hospital)

Yapay Zeka Yayaların Bir Sonraki Hamlesini Tahmin Ediyor

Sadece tespit eden değil, öngören bir model

OmniPredict sahneyi nasıl okuyor?

Karşılaştırmalı değerlendirmeler, sınırlar ve gerçeklik boşluğu

Güvenlik, gizlilik ve davranışsal geri bildirim

Çok modlu LLM'lerden beyinden ilham alan mimarilere

Yaygın kullanımdan önce ne yapılması gerekiyor?

Kaynaklar

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments