Şehir sokaklarında, saniyeler içinde alınan en güvenli karar genellikle hiç vermek zorunda kalmadığınız karardır. Bu hafta Texas A&M'deki araştırmacılar ve Kore'deki iş ortakları, yoldaki bir insanı tespit etmekten fazlasını yapan bir yapay zeka sistemi olan OmniPredict'i tanıttı: Bu sistem, o kişinin bir sonraki adımda ne yapacağını anlamaya çalışıyor. Computers & Electrical Engineering dergisinde hakemli bir makalede açıklanan OmniPredict; bir yayanın muhtemel eylemini gerçek zamanlı olarak tahmin etmek için sahne görüntülerini, yakın çekim görünümleri, sınırlayıcı kutuları, araç telemetrisini ve basit davranışsal ipuçlarını harmanlıyor.
Sadece tespit eden değil, öngören bir model
Geleneksel otonom araç katmanları algılamayı planlamadan ayırır: kameralar ve lidar nesneleri tespit eder, ardından alt modüller nasıl fren yapılacağına veya manevra yapılacağına karar verir. OmniPredict, bu katı iş akışını görsel ve bağlamsal girdileri birleştiren ve insan davranışı hakkında olasılıksal bir tahmin üreten —birinin karşıdan karşıya mı geçeceği, görüşü engellenmiş bir alanda duraksayacağı mı, araca doğru mu bakacağı yoksa başka bir eylem mi gerçekleştireceği gibi— çok modlu bir büyük dil modeli (MLLM) mimarisiyle değiştiriyor. Laboratuvar testlerinde ekip, yerleşik yaya davranışı ölçütlerinde yaklaşık %67'lik bir tahmin doğruluğu bildirdi; bu da son teknoloji yöntemlere kıyasla yaklaşık on yüzdelik puanlık bir performans artışı anlamına geliyor.
Araştırmacılar bu ilerlemeyi, tepkisel otomasyondan öngörülü otonomiye doğru bir geçiş olarak çerçeveliyor. Proje lideri, "Şehirler öngörülemezdir. Yayalar öngörülemez olabilir," diyerek, yola atılacak olası bir adımı önceden tahmin eden bir aracın daha erken ve daha sarsıntısız bir planlama yapabileceğini ve potansiyel olarak ramak kala olayları azaltabileceğini belirtti. Sonuç, bir insan zihni okuma kehaneti değil; görsel ipuçlarını —duruş, kafa yönü, görüş engeli, araç hızı— kısa vadeli bir hareket tahminine dönüştüren istatistiksel bir motor.
OmniPredict sahneyi nasıl okuyor?
Teknik temelinde OmniPredict, video karelerini ve yapılandırılmış bağlamsal sinyalleri yorumlamak üzere uyarlanmış —sohbet ve görüntü görevleri için giderek daha fazla kullanılan türden bir mimari olan— bir MLLM kullanıyor. Girdiler arasında geniş açılı bir sahne görüntüsü, tek tek yayaların yakınlaştırılmış kesitleri, sınırlayıcı kutu koordinatları ve araç hızı gibi basit sensör verileri yer alıyor. Model, bu çok modlu akışları birlikte işliyor ve bunları ekibin sürüş bağlamları için yararlı bulduğu dört davranış kategorisine eşliyor: karşıdan karşıya geçme, görüş engeli, eylemler ve bakış.
İki özellik önem taşıyor. Birincisi, MLLM'nin çapraz modlu dikkat özelliği, modelin özel olarak elle yazılmış kurallar olmadan uzak bir vücut yönelimini yerel bir jestle —örneğin birinin telefonuna bakarken gövdesini çevirmesiyle— ilişkilendirmesine olanak tanıyor. İkincisi, sistem genelleme yapabiliyor gibi görünüyor: Araştırmacılar, OmniPredict'i yaya davranışı için iki zorlu genel veri setinde (JAAD ve WiDEVIEW) veri setine özel eğitim yapmadan çalıştırdılar ve yine de teknoloji standartlarının üzerinde sonuçlar elde ettiler. Bu genelleme temel iddiadır ve grubun OmniPredict'i ham algılamanın üzerinde oturan bir "muhakeme" katmanı olarak tanımlamasının nedeni de budur.
Karşılaştırmalı değerlendirmeler, sınırlar ve gerçeklik boşluğu
Karşılaştırmalı değerlendirmeler hikayenin sadece bir kısmını anlatıyor. Bildirilen %67'lik doğruluk ve son baz alınan değerlere göre sağlanan %10'luk iyileştirme akademik karşılaştırmalarda anlamlıdır, ancak bunlar otomatik olarak yola çıkmaya hazır bir güvenlik anlamına gelmez. Karşılaştırmalı değerlendirmeler, canlı şehir sürüşünden çok daha fazla tekrarlanan örüntü ve daha dar bir senaryo dağılımı içerir; sistemler laboratuvardan çıktığında nadir olaylar, saldırgan davranışlar ve alışılmadık hava koşulları genellikle model varsayımlarını boşa çıkarır.
Eleştirmenler, "insan zihnini okuma" ifadesinin sonucu abartma riski taşıdığına hemen dikkat çekiyor. Modelin tahminleri geçmiş verilerden öğrenilen istatistiksel ilişkilere dayanıyor: eğitim setindeki benzer görsel bağlamlar benzer sonuçlara yol açıyor. Bu güçlü bir özelliktir ancak insan niyetine veya içsel zihinsel durumlara erişimle aynı şey değildir. Uygulamada yayalar yerel kültürden, sokak tasarımından ve sosyal sinyallerden etkilenirler; bu katmanları hesaba katmayan bir yapay zeka emin ama yanlış tahminlerde bulunabilir.
Güvenlik, gizlilik ve davranışsal geri bildirim
Eğer bir araç sizin ne yapmanızı beklediğine göre planlama yaparsa, buna yanıt olarak insan davranışı değişebilir; bu durum bazen davranışsal geri bildirim döngüsü olarak adlandırılır. Araçların kendilerini tahmin edeceğini bilen insanlar daha fazla risk alabilir veya tam tersine daha temkinli hale gelebilir; her iki dinamik de modelin dayandığı istatistiksel ilişkileri değiştirebilir. Bu durum, sürekli saha içi doğrulamayı zorunlu kılmaktadır.
Sistemin görsel ve bağlamsal ipuçlarına olan güveni, gizlilik ve hakkaniyet sorularını da beraberinde getiriyor. Kentsel görüntüler üzerinde eğitilen modeller genellikle veri setlerinin önyargılarını ve kör noktalarını miras alır: kimlerin, hangi koşullar altında ve hangi kameralarla kaydedildiği gibi. Belirli cilt tonları, kıyafet türleri veya vücut şekilleri için algılamadaki zayıflıklar, farklı popülasyonlar arasında farklı tahmin kalitesine dönüşebilir. Bu nedenle mühendislik ekipleri veri seti çeşitliliğine, model hata modları hakkında şeffaflığa ve taraflı davranışları denetleme ve hafifletme prosedürlerine öncelik vermelidir.
Çok modlu LLM'lerden beyinden ilham alan mimarilere
Bu paralellik lafziden ziyade kavramsal. Mevcut yapay zeka, insan bilincini veya gerçek niyet mekanizmalarını taklit etmiyor. Ancak sinirsel organizasyondan —ağların bilgiyi nasıl yönlendirdiğinden ve uzmanlaşmış modülleri nasıl oluşturduğundan— ilham almak, mühendislerin kaotik şehir sokaklarında hız, sağlamlık ve uyarlanabilirliği daha iyi dengeleyen sistemler tasarlamasına yardımcı olabilir.
Yaygın kullanımdan önce ne yapılması gerekiyor?
OmniPredict bir araştırma prototipidir, tamamlanmış bir otonomi yığını değil. Araçlarda kullanılmadan önce, uzun vadeli saha denemelerine, uç durumlarda titiz güvenlik doğrulamalarına ve davranışsal tahminlerin hareket planlamasını nasıl etkilemesi gerektiğini gösteren entegrasyon testlerine ihtiyacı var. Düzenleyiciler ve üreticiler ayrıca, bir sistem insan eylemlerini tahmin ettiğinde kabul edilebilir yanlış pozitif ve yanlış negatif oranları için standartlara karar vermek zorunda kalacaklar —ki bu ödünleşimler net güvenlik etkileri taşır.
Son olarak proje, uygulamalı yapay zekanın tekrarlayan bir gerçeğinin altını çiziyor: Özenle seçilmiş testlerdeki doğruluk gereklidir ancak yeterli değildir. Gerçek dünya sistemleri denetlenebilir, adil ve dağılım değişikliklerine karşı sağlam olmalıdır; belirsizlik durumunda kademeli olarak devre dışı kalabilmelidirler. İnsan hareketini "öngören" makineler olasılığı, şehir içi ulaşımdaki güvenlik ve akış için caziptir, ancak araçlar bu tahminlere dayanarak geri dönülemez kararlar vermeden önce çözülmesi gereken teknik, etik ve yasal soruları da beraberinde getirir.
Texas A&M ve ortaklarının çalışmaları; algılama, bağlam ve davranışsal muhakemenin otonom sistemlerin ayrılmaz bileşenleri olduğu yakın bir geleceğe işaret ediyor. Bu gelecek, ancak yeni tahmin katmanını muhafazakar güvenlik tasarımı, dikkatli testler ve şeffaflık ile hesap verebilirlik için net kurallarla birleştirirse daha güvenli olacaktır.
Kaynaklar
- Computers & Electrical Engineering (OmniPredict üzerine araştırma makalesi)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (nöromorfik ağlar üzerine araştırma)
- McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Comments
No comments yet. Be the first!