Video difüzyon teknolojisi ve robotik kontrolün **füzyonu**, yapay zekanın fiziksel dünyayla etkileşim biçiminde büyük bir atılıma yol açtı. Geleneksel Görü-Dil-Eylem (VLA) modelleri dilsel komutları takip etme konusunda yetenekli olsa da, yeni ortamların öngörülemeyen fiziğiyle karşılaştıklarında sıklıkla başarısız oluyorlar. Bunu çözmek için araştırmacılar Kyungmin Lee, Jing Wang ve Jan Kautz, robotların eylemlerinin görsel ve fiziksel sonuçlarını tahmin etmelerini sağlayan bir Dünya Eylem Modeli (WAM) olan DreamZero'yu tanıttılar. Videoyu çevresel evrimin yoğun bir temsili olarak ele alan bu yeni mimari, robotlara, görülmemiş senaryolara eşi benzeri görülmemiş bir doğrulukla uyum sağlamalarına olanak tanıyan bir tür fiziksel sezgi kazandırıyor.
Fiziksel Alanlarda Semantik Yapay Zekanın Sınırları
Modern robotik genellikle, bir robotun nesneleri tanımlamasına yardımcı olan ancak yeni ayarlarda başarılı fiziksel hareketlere dönüşmeyen semantik genellemeye dayanır. Görü-Dil-Eylem (VLA) modelleri tipik olarak bir nesnenin "ne" olduğunu anlama konusunda mükemmeldir, ancak aydınlatma, yönelim veya çevresel dinamikler değiştiğinde onu "nasıl" manipüle edecekleri konusunda zorlanırlar. Bu boşluk, bu modellerin bir Dünya Modeli'nden — bir motor komutu ile onun fiziksel sonucu arasındaki nedensel ilişkiyi anlayan dahili bir simülasyondan — yoksun olması nedeniyle oluşur.
Araştırmalar, bir robot yeni bir ortama girdiğinde, fiziksel temellendirme eksikliğinin otoregresif hataların katlanarak artmasına neden olduğunu gösteriyor. Bir görevin başlangıç aşamasındaki küçük hatalar, modelin yarattığı dünyanın gelecekteki durumunu "görememesi" nedeniyle uygulamada tam bir bozulmaya yol açar. Bunu ele almak için DreamZero, paradigmayı basit eylem tahmininden kapsamlı bir fiziksel dinamik modellemesine kaydırarak, robotun bir görevin her milisaniyesinde çalışma alanının görsel ve dokunsal evrimini anlamasını sağlar.
Dünya Eylem Modelleri, Görü-Dil-Eylem (VLA) modellerinden nasıl ayrılıyor?
DreamZero gibi Dünya Eylem Modelleri (WAM'ler), gelecekteki görsel durumları tahmin eden dünya modellemesini entegre ederek Görü-Dil-Eylem (VLA) modellerinden ayrılır. VLA'lar girdileri doğrudan eylemlere haritalarken, WAM'ler video üretimi ve eylem tahmininin fiziksel bir füzyonunu gerçekleştirir. Bu, modelin temel fiziği içselleştirmesine ve hareketleri gerçekleştirmeden önce davranışının görsel sonuçlarını tahmin etmesine olanak tanır.
Genellikle dar ve tekrarlayan gösterimlerle eğitilen standart VLA'ların aksine, DreamZero, 14 milyar parametreli bir otoregresif video difüzyon modelinden yararlanır. Bu omurga, robotun bir görevi yerine getirirken dünyanın nasıl görünmesi gerektiğini "hayal etmesini" sağlar. Video ve eylemi ortaklaşa modelleyerek, Dünya Eylem Modeli heterojen veri kaynaklarından çeşitli beceriler öğrenir. Bu metodoloji, gerçek dünya robot deneylerinde literatürdeki en gelişmiş VLA'lara kıyasla yeni görevlere ve ortamlara genellemede 2 kat iyileşme sağlar.
Geleneksel yapay zeka modelleri neden görülmemiş fiziksel hareketlerde zorlanıyor?
Geleneksel yapay zeka modelleri, çevresel dinamiklerin ve fiziğin doğal bir temsiline sahip olmadıkları için görülmemiş fiziksel hareketlerde zorlanırlar. Bu modeller genellikle, hareketler ve sonuçları arasındaki nedensel ilişkileri hesaba katmayan doğrudan gözlemden eyleme eşlemelere dayanır. Tahmin edici bir Dünya Modeli'nin eksikliği, model yeni senaryolarla karşılaştığında düşük performansa ve hata yayılımına yol açar.
Pratikte bu, geleneksel bir robotun laboratuvar ortamında mavi bir bloğu nasıl kaldıracağını bilebileceği, ancak blok farklı gölgelere sahip bir odada biraz daha ağır bir kırmızı küre ile değiştirildiğinde, modelin eylem dizisinin başarısız olacağı anlamına gelir. Bu başarısızlık, modelin ortamın yoğunluğu veya kendi tutucularının değişen yüzeylerle nasıl etkileşime girdiği konusunda hiçbir "sezgiye" sahip olmaması nedeniyle oluşur. DreamZero, görsel dünyayı bir dizi statik, bağlantısız görüntüden ziyade fiziksel olayların öngörülebilir bir akışı olarak ele alarak ve video difüzyon omurgalarını temel alarak bunun üstesinden gelir.
DreamZero: Bir Dünya Eylem Modelinin Mimarisi
DreamZero'nun temel mimarisi, bir üretken dünya simülatörü olarak işlev gören, önceden eğitilmiş bir video difüzyon omurgası üzerine inşa edilmiştir. Bu model sadece bir sonraki robotik eklem hareketini tahmin etmekle kalmaz; robotun kameralarının göreceği sonraki birkaç kareyi de tahmin eder. Bu görsel tahminleri düşük seviyeli eylem belirteçleri (action tokens) ile uyumlu hale getirerek model, hareketlerinin gözlemlediği dünyanın yasalarıyla fiziksel olarak tutarlı olmasını sağlar.
- Ortak Modelleme: Fiziksel anlayışı motor yürütme ile senkronize etmek için video karelerinin ve robotik eylemlerin eş zamanlı tahmini.
- Yoğun Temsil: Sürtünme, yerçekimi ve nesne kalıcılığı gibi ince fiziksel nüansları yakalamak için videoyu birincil veri kaynağı olarak kullanma.
- Heterojen Veri: Binlerce özdeş laboratuvar gösterimine güvenmek yerine, çok çeşitli robot verilerinden ve insan videolarından öğrenme.
DreamZero insanları izleyerek görev yapmayı öğrenebilir mi?
DreamZero, sağlam çapraz gövdeleme yetenekleri (cross-embodiment capabilities) sayesinde insan video gösterimlerini izleyerek karmaşık görevleri öğrenebilir. İnsan hareketini yoğun bir video temsili olarak analiz ederek model, insan merkezli görsel veriler ile robotik kontrolün bir füzyonunu gerçekleştirir. Bu, sistemin fiziksel hareket kalıplarını çıkarmasına ve bunları yalnızca 10 ila 20 dakikalık gösterim verisiyle kendi robotik donanımına uygulamasuna olanak tanır.
Çapraz gövdeleme transferi olarak bilinen bu yetenek, Genel Amaçlı Robotik alanında büyük bir sıçramayı temsil eder. Testlerde, insanlardan alınan sadece video içerikli gösterimler, görülmemiş görev performansında %42'nin üzerinde bağıl bir iyileşme sağladı. Bu, modelin yalnızca pikselleri taklit etmediğini, gerçekleştirilen görevin temel fiziğini anladığını gösteriyor. Gösterici ister bir insan eli ister farklı bir robot kolu olsun, DreamZero hedefi ve bu hedefe ulaşmak için gereken fiziksel adımları tanımlar.
Gerçek Zamanlı Kontrol ve Sistem Optimizasyonu
14 milyar parametreli bir modeli gerçek zamanlı olarak çalıştırmak, DreamZero'nun kapsamlı model ve sistem optimizasyonları yoluyla üstesinden geldiği önemli bir teknik zorluktur. Geleneksel büyük ölçekli modeller, robotikte gereken milisaniye düzeyindeki tepkiler için genellikle çok yavaştır. Ancak araştırmacılar, robotun çevresel değişikliklere gerçekleştikleri anda tepki vermesi için yeterince hızlı olan 7Hz kapalı döngü kontrol elde ettiler.
Bu optimizasyonlar, "sandviç yap" gibi üst düzey muhakeme ile görevi yerine getirmek için gereken ayrıntılı motor komutları arasındaki boşluğu doldurur. Otoregresif video difüzyon modelini verimli bir şekilde çalıştırarak DreamZero, sürekli bir geri bildirim döngüsü sürdürür. Eğer bir nesne kayarsa veya ortam eylem sırasında değişirse, model görsel tahminini ve eylem planını eş zamanlı olarak güncelleyerek, önceki büyük ölçekli modellerin yapamadığı bir şekilde istikrarı korur.
Sıfır Atışlı Robotik Genellemenin Geleceği
Araştırmanın belki de en şaşırtıcı bulgusu, DreamZero'nun az atışlı gövde adaptasyonu (few-shot embodiment adaptation) gerçekleştirme yeteneğidir. Model, öğrendiği becerileri yalnızca 30 dakikalık "oyun" verisiyle tamamen yeni robotik donanımlara aktarabilir. Bu, bir tip endüstriyel kol üzerinde eğitilmiş bir modelin, sıfır atışlı genelleme (zero-shot generalization) yeteneklerini kaybetmeden farklı bir modele ve hatta insansı bir robota hızla uyarlanabileceği anlamına gelir.
Robotik alanı daha karmaşık ve senaryosuz ortamlara doğru ilerlerken, üretken video modelleri ile eylem tahmininin füzyonu muhtemelen standart hale gelecektir. NVIDIA Research ve yazarların çalışmaları, Dünya Eylem Modelleri'nin, yapay zekada eksik olan gerekli "fiziksel sağduyuyu" sağladığını kanıtlıyor. Bu teknolojinin gelecekteki yinelemeleri, herhangi bir eve veya fabrikaya girebilen ve sadece birkaç dakikalık gözlemden sonra görevleri güvenli ve etkili bir şekilde yerine getirmeye başlayan robotlara yol açabilir.
Comments
No comments yet. Be the first!