Fiziksel Yapay Zeka, en başından itibaren fizik kurallarını ve uzamsal muhakemeyi entegre eden bir görü-dil-eylem (VLA) çerçevesi olan DM0'ın tanıtılmasıyla çok önemli bir dönüm noktasına ulaştı. İnternetteki metin ve görüntülerden uyarlanan önceki modellerin aksine, Hao Liu, Bin Xie ve Yi Yang, fiziksel etkileşimi bir ince ayar düşüncesi değil, birincil bir veri kaynağı olarak ele alan bir sistem geliştirdiler. Bu "eylemli-yerli" yaklaşım, robotların karmaşık ortamlarda gezinmesine ve nesneleri biyolojik öğrenmeyi yansıtan bir hassasiyet düzeyiyle manipüle etmesine olanak tanıyarak dijital muhakeme ile gerçek dünya uygulamaları arasındaki uzun süredir var olan boşluğu dolduruyor.
DM0 geleneksel görü-dil-eylem modellerinden nasıl ayrılıyor?
DM0, internette önceden eğitilmiş modellere ince ayar yapmak yerine, eğitimin başlangıcından itibaren içsel çok kaynaklı fiziksel öncülleri dahil ederek geleneksel VLA modellerinden ayrılır. Bir hibrit eğitim stratejisi ve bir akış eşleştirmeli eylem uzmanı kullanan DM0, genelleştirilmiş anlamsal temsilleri korurken aynı zamanda karmaşık robotik görevler için gereken yüksek frekanslı kontrolün üstesinden gelir ve π0 gibi karşılaştırmalı değerlendirmeleri etkili bir şekilde geride bırakır.
Geleneksel robotik yapay zeka, fiziksel dünyadan ziyade öncelikle internet metinleri üzerinde eğitilmiş modellerden uyarlandığı için genellikle zorluk yaşar. Bu "önce internet" modelleri, uzamsal zeka konusunda doğal bir anlayıştan yoksundur; bu durum, robotun "bardağı al" komutunu anlayabildiği ancak bunu yapmak için gereken torku veya yörüngeyi kavrayamadığı fiziksel hareketlerde "halüsinasyonlara" yol açar. Buna karşılık DM0, eylemli-yerli bir modeldir. Bu, fiziksel temellendirmeyi — görsel girdi, dilsel komutlar ve motor çıktısı arasındaki ilişkiyi — tek ve birleşik bir eylem dili olarak anlayacak şekilde oluşturulduğu anlamına gelir.
Fiziksel Yapay Zekada Eylemli-Yerli Zeka Kavramı
Eylemli-yerli zeka, bir yapay zeka modelinin temel fizik yasalarını ve uzamsal ilişkileri anlamsal dil verileriyle eş zamanlı olarak öğrendiği bir paradigmayı ifade eder. Bu yaklaşım, bir modelin yalnızca videoları izlediği veya açıklamaları okuduğu pasif gözlemin ötesine geçerek aktif fiziksel temellendirmeye ulaşır. DM0, otonom sürüş kayıtları ve robotik etkileşim verileri de dahil olmak üzere heterojen veri kaynakları üzerinde eğitim alarak, yalnızca internet tabanlı modellerin kopyalayamayacağı fiziksel dünya için bir "sağduyu" geliştirir.
Araştırma ekibi, temel mimari alt düzey kontrol için optimize edilmediğinden, internet modellerine fizik için ince ayar yapmanın karmaşık görevler için yetersiz olduğunu savunuyor. DM0, çeşitli korpuslardan gelen uzamsal bilgileri entegre ederek bu sorunu çözer. Örneğin, otonom sürüş senaryolarını dahil ederek model, hareket dinamiklerini ve engellerden kaçınmayı geniş ölçekte öğrenir. Bu fiziksel öncüller, modelin 2 boyutlu bir görüntüyü anlamaktan 3 boyutlu bir alanda derinlik ve sonuç duygusuyla hareket etmeye geçmesini sağlayan bir iskelet görevi görür.
DM0'ın üç aşamalı işlem hattı nedir: Ön Eğitim, Orta Eğitim ve Eğitim Sonrası?
DM0 işlem hattı; çeşitli web ve fiziksel korpuslar üzerinde birleşik Ön Eğitimden, akış eşleştirmeli bir eylem uzmanı geliştirmek için Orta Eğitimden ve göreve özel iyileştirme için Eğitim Sonrasından oluşur. Bu yapılandırılmış yaklaşım, modelin geniş anlamsal bilgiyi korumasını sağlarken, Fiziksel Yapay Zeka alanında hassas manipülasyon ve çevresel navigasyon için gerekli uzmanlaşmış motor becerileri kazanmasını sağlar.
Ön Eğitim aşamasında araştırmacılar, web metinleri, sürüş verileri ve etkileşim günlüklerini kullanarak Vision-Language Model (VLM) üzerinde büyük ölçekli eğitim gerçekleştirir. Bu aşama, fiziksel sezginin yanı sıra anlamsal bilgi edinmek için kritik öneme sahiptir. Bunu takiben, Orta Eğitim aşaması bir akış eşleştirmeli eylem uzmanını tanıtır. Bu bileşen, üst düzey muhakemeyi robotik kontrolün granüler gereksinimleriyle bağdaştırmak için VLM'nin üzerine inşa edilmiştir. Son olarak, Eğitim Sonrası aşaması, modelin uzmanlık gerektiren görevleri yüksek güvenilirlikle yerine getirebilmesini sağlamak için RoboChallenge karşılaştırmalı değerlendirmesi gibi belirli ortamlarda pekiştirmeli öğrenmeyi ve ince ayarı içerir.
DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir mi?
DM0, bu görevleri tek bir çerçeve içinde birleştirerek hem robot manipülasyonu hem de navigasyon yapabilen genel bir model olarak işlev görecek şekilde tasarlanmıştır. Manipülasyon için Table30 karşılaştırmalı değerlendirmesinde son teknoloji performans sergilerken, aynı zamanda ortamlar arasında gezinmesine ve kesintisiz bir iş akışının parçası olarak nesnelerle etkileşime girmesine olanak tanıyan sağlam bir uzamsal Düşünce Zinciri (CoT) muhakemesi sergiler.
Tarihsel olarak robotik sistemler kapalı kutular (silolar) şeklinde çalışmıştır: bir model A noktasından B noktasına gitmeyi (navigasyon) yönetirken, diğeri bir nesneyi almayı (manipülasyon) yönetir. DM0, her ikisini de eylemli eylemler olarak ele alarak bu siloları yıkar. Bu birleşme, modele hem geniş çevresel hareket hem de ince ayarlı el-göz koordinasyonu örnekleri sağlayan heterojen verilerle desteklenir. Pratik uygulamalarda bu, DM0 destekli bir robotun belirli bir meyveyi bulmak için bir mutfakta gezinebileceği ve ardından her adımın alt düzey fiziğini yönetirken üst düzey hedef odaklı odağını koruyarak onu bir kaseye hassas bir şekilde yerleştirebileceği anlamına gelir.
Teknik Atılımlar: Akış Eşleştirmeli Eylem Uzmanı
Akış eşleştirmeli eylem uzmanı, görsel ve dilsel girdileri fiziksel eylemlerle eşleştirerek DM0'ın kesin motor yörüngelerini tahmin etmesini sağlayan özel bir mimari bileşendir. Bu mekanizma, eylem görevlerinden gelen gradyanların çekirdek VLM'ye geri yayılmadığı bir hibrit eğitim stratejisi kullanır; böylece robot belirli Fiziksel Yapay Zeka becerilerini öğrenirken genel muhakeme yeteneklerinin "yıkıcı bir şekilde unutulması" önlenir.
- Gradyan İzolasyonu: Eylemle ilgili gradyanların VLM'yi değiştirmesini engelleyerek DM0, bir vidanın nasıl döndürüleceğini öğrenmenin modelin karmaşık sözlü talimatları anlama yeteneğini bozmamasını sağlar.
- Eylemli Uzamsal İskelet: Bu strateji, "eylem çözüm alanını" sınırlamak için Düşünce Zinciri muhakemesini kullanarak robotun hareketlerini uygulamadan önce mantıklı bir şekilde planlamasına yardımcı olur.
- Verimlilik Kazanımları: Akış eşleştirme yaklaşımı, geleneksel difüzyon tabanlı modellere kıyasla eğitim sırasında daha hızlı yakınsama sağlayarak devasa veri kümeleri üzerinde eğitimi daha uygulanabilir hale getirir.
Fiziksel Yapay Zeka ve RoboChallenge Performansı İçin Gelecekteki Çıkarımlar
DM0'ın RoboChallenge karşılaştırmalı değerlendirmesindeki performansı, genel amaçlı evsel ve endüstriyel robotlar için standart olma potansiyelini göstermektedir. Table30'da hem Uzman hem de Genel ayarlarda son teknoloji sonuçlar elde eden DM0, eylemli-yerli modellerin kabloları takmaktan öğeleri sıralamaya kadar çok çeşitli görevleri minimum göreve özel programlama ile halledebileceğini kanıtlıyor.
Alan Uzamsal Zeka'ya doğru ilerledikçe, DM0 çerçevesi net bir yol haritası sunuyor. Çeşitli etkileşim günlüklerinden öğrenme yeteneği, dünyaya daha fazla robot girdikçe DM0 gibi modeller için veri havuzunun katlanarak büyüyeceği anlamına gelir. Bu, Fiziksel Yapay Zeka'nın insan dünyasının inceliklerini anlama konusunda giderek daha yetkin hale geldiği verimli bir döngü yaratır. Hao Liu, Bin Xie ve Yi Yang'ın fiziksel eylem terimleriyle "düşünen" bir model yaratmadaki başarısı, gelecek nesil robotların yalnızca görevleri yerine getirmek üzere programlanmayacağını, aynı zamanda içinde bulundukları ortamlar hakkında doğal bir anlayışa sahip olacağını gösteriyor.
Comments
No comments yet. Be the first!