DM0, Fiziksel Yapay Zekayı Somutlaşmış Eğitimle Yeniden Tanımlıyor

Breaking News Teknoloji
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
Geleneksel robotik yapay zeka, fiziksel dünya yerine ağırlıklı olarak internet metinleri üzerinde eğitilen modellerden uyarlandığı için sıklıkla zorluk yaşamaktadır. Yeni DM0 çerçevesi, bir Görüntü-Dil-Eylem modelini en başından itibaren fiziksel önkabullerle eğiterek bu eğilimi tersine çeviriyor ve robotların aynı anda hem gezinmesini hem de muhakeme yapmasını sağlıyor.

Fiziksel Yapay Zeka, en başından itibaren fizik kurallarını ve uzamsal muhakemeyi entegre eden bir görü-dil-eylem (VLA) çerçevesi olan DM0'ın tanıtılmasıyla çok önemli bir dönüm noktasına ulaştı. İnternetteki metin ve görüntülerden uyarlanan önceki modellerin aksine, Hao Liu, Bin Xie ve Yi Yang, fiziksel etkileşimi bir ince ayar düşüncesi değil, birincil bir veri kaynağı olarak ele alan bir sistem geliştirdiler. Bu "eylemli-yerli" yaklaşım, robotların karmaşık ortamlarda gezinmesine ve nesneleri biyolojik öğrenmeyi yansıtan bir hassasiyet düzeyiyle manipüle etmesine olanak tanıyarak dijital muhakeme ile gerçek dünya uygulamaları arasındaki uzun süredir var olan boşluğu dolduruyor.

DM0 geleneksel görü-dil-eylem modellerinden nasıl ayrılıyor?

DM0, internette önceden eğitilmiş modellere ince ayar yapmak yerine, eğitimin başlangıcından itibaren içsel çok kaynaklı fiziksel öncülleri dahil ederek geleneksel VLA modellerinden ayrılır. Bir hibrit eğitim stratejisi ve bir akış eşleştirmeli eylem uzmanı kullanan DM0, genelleştirilmiş anlamsal temsilleri korurken aynı zamanda karmaşık robotik görevler için gereken yüksek frekanslı kontrolün üstesinden gelir ve π0 gibi karşılaştırmalı değerlendirmeleri etkili bir şekilde geride bırakır.

Geleneksel robotik yapay zeka, fiziksel dünyadan ziyade öncelikle internet metinleri üzerinde eğitilmiş modellerden uyarlandığı için genellikle zorluk yaşar. Bu "önce internet" modelleri, uzamsal zeka konusunda doğal bir anlayıştan yoksundur; bu durum, robotun "bardağı al" komutunu anlayabildiği ancak bunu yapmak için gereken torku veya yörüngeyi kavrayamadığı fiziksel hareketlerde "halüsinasyonlara" yol açar. Buna karşılık DM0, eylemli-yerli bir modeldir. Bu, fiziksel temellendirmeyi — görsel girdi, dilsel komutlar ve motor çıktısı arasındaki ilişkiyi — tek ve birleşik bir eylem dili olarak anlayacak şekilde oluşturulduğu anlamına gelir.

Fiziksel Yapay Zekada Eylemli-Yerli Zeka Kavramı

Eylemli-yerli zeka, bir yapay zeka modelinin temel fizik yasalarını ve uzamsal ilişkileri anlamsal dil verileriyle eş zamanlı olarak öğrendiği bir paradigmayı ifade eder. Bu yaklaşım, bir modelin yalnızca videoları izlediği veya açıklamaları okuduğu pasif gözlemin ötesine geçerek aktif fiziksel temellendirmeye ulaşır. DM0, otonom sürüş kayıtları ve robotik etkileşim verileri de dahil olmak üzere heterojen veri kaynakları üzerinde eğitim alarak, yalnızca internet tabanlı modellerin kopyalayamayacağı fiziksel dünya için bir "sağduyu" geliştirir.

Araştırma ekibi, temel mimari alt düzey kontrol için optimize edilmediğinden, internet modellerine fizik için ince ayar yapmanın karmaşık görevler için yetersiz olduğunu savunuyor. DM0, çeşitli korpuslardan gelen uzamsal bilgileri entegre ederek bu sorunu çözer. Örneğin, otonom sürüş senaryolarını dahil ederek model, hareket dinamiklerini ve engellerden kaçınmayı geniş ölçekte öğrenir. Bu fiziksel öncüller, modelin 2 boyutlu bir görüntüyü anlamaktan 3 boyutlu bir alanda derinlik ve sonuç duygusuyla hareket etmeye geçmesini sağlayan bir iskelet görevi görür.

DM0'ın üç aşamalı işlem hattı nedir: Ön Eğitim, Orta Eğitim ve Eğitim Sonrası?

DM0 işlem hattı; çeşitli web ve fiziksel korpuslar üzerinde birleşik Ön Eğitimden, akış eşleştirmeli bir eylem uzmanı geliştirmek için Orta Eğitimden ve göreve özel iyileştirme için Eğitim Sonrasından oluşur. Bu yapılandırılmış yaklaşım, modelin geniş anlamsal bilgiyi korumasını sağlarken, Fiziksel Yapay Zeka alanında hassas manipülasyon ve çevresel navigasyon için gerekli uzmanlaşmış motor becerileri kazanmasını sağlar.

Ön Eğitim aşamasında araştırmacılar, web metinleri, sürüş verileri ve etkileşim günlüklerini kullanarak Vision-Language Model (VLM) üzerinde büyük ölçekli eğitim gerçekleştirir. Bu aşama, fiziksel sezginin yanı sıra anlamsal bilgi edinmek için kritik öneme sahiptir. Bunu takiben, Orta Eğitim aşaması bir akış eşleştirmeli eylem uzmanını tanıtır. Bu bileşen, üst düzey muhakemeyi robotik kontrolün granüler gereksinimleriyle bağdaştırmak için VLM'nin üzerine inşa edilmiştir. Son olarak, Eğitim Sonrası aşaması, modelin uzmanlık gerektiren görevleri yüksek güvenilirlikle yerine getirebilmesini sağlamak için RoboChallenge karşılaştırmalı değerlendirmesi gibi belirli ortamlarda pekiştirmeli öğrenmeyi ve ince ayarı içerir.

DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir mi?

DM0, bu görevleri tek bir çerçeve içinde birleştirerek hem robot manipülasyonu hem de navigasyon yapabilen genel bir model olarak işlev görecek şekilde tasarlanmıştır. Manipülasyon için Table30 karşılaştırmalı değerlendirmesinde son teknoloji performans sergilerken, aynı zamanda ortamlar arasında gezinmesine ve kesintisiz bir iş akışının parçası olarak nesnelerle etkileşime girmesine olanak tanıyan sağlam bir uzamsal Düşünce Zinciri (CoT) muhakemesi sergiler.

Tarihsel olarak robotik sistemler kapalı kutular (silolar) şeklinde çalışmıştır: bir model A noktasından B noktasına gitmeyi (navigasyon) yönetirken, diğeri bir nesneyi almayı (manipülasyon) yönetir. DM0, her ikisini de eylemli eylemler olarak ele alarak bu siloları yıkar. Bu birleşme, modele hem geniş çevresel hareket hem de ince ayarlı el-göz koordinasyonu örnekleri sağlayan heterojen verilerle desteklenir. Pratik uygulamalarda bu, DM0 destekli bir robotun belirli bir meyveyi bulmak için bir mutfakta gezinebileceği ve ardından her adımın alt düzey fiziğini yönetirken üst düzey hedef odaklı odağını koruyarak onu bir kaseye hassas bir şekilde yerleştirebileceği anlamına gelir.

Teknik Atılımlar: Akış Eşleştirmeli Eylem Uzmanı

Akış eşleştirmeli eylem uzmanı, görsel ve dilsel girdileri fiziksel eylemlerle eşleştirerek DM0'ın kesin motor yörüngelerini tahmin etmesini sağlayan özel bir mimari bileşendir. Bu mekanizma, eylem görevlerinden gelen gradyanların çekirdek VLM'ye geri yayılmadığı bir hibrit eğitim stratejisi kullanır; böylece robot belirli Fiziksel Yapay Zeka becerilerini öğrenirken genel muhakeme yeteneklerinin "yıkıcı bir şekilde unutulması" önlenir.

  • Gradyan İzolasyonu: Eylemle ilgili gradyanların VLM'yi değiştirmesini engelleyerek DM0, bir vidanın nasıl döndürüleceğini öğrenmenin modelin karmaşık sözlü talimatları anlama yeteneğini bozmamasını sağlar.
  • Eylemli Uzamsal İskelet: Bu strateji, "eylem çözüm alanını" sınırlamak için Düşünce Zinciri muhakemesini kullanarak robotun hareketlerini uygulamadan önce mantıklı bir şekilde planlamasına yardımcı olur.
  • Verimlilik Kazanımları: Akış eşleştirme yaklaşımı, geleneksel difüzyon tabanlı modellere kıyasla eğitim sırasında daha hızlı yakınsama sağlayarak devasa veri kümeleri üzerinde eğitimi daha uygulanabilir hale getirir.

Fiziksel Yapay Zeka ve RoboChallenge Performansı İçin Gelecekteki Çıkarımlar

DM0'ın RoboChallenge karşılaştırmalı değerlendirmesindeki performansı, genel amaçlı evsel ve endüstriyel robotlar için standart olma potansiyelini göstermektedir. Table30'da hem Uzman hem de Genel ayarlarda son teknoloji sonuçlar elde eden DM0, eylemli-yerli modellerin kabloları takmaktan öğeleri sıralamaya kadar çok çeşitli görevleri minimum göreve özel programlama ile halledebileceğini kanıtlıyor.

Alan Uzamsal Zeka'ya doğru ilerledikçe, DM0 çerçevesi net bir yol haritası sunuyor. Çeşitli etkileşim günlüklerinden öğrenme yeteneği, dünyaya daha fazla robot girdikçe DM0 gibi modeller için veri havuzunun katlanarak büyüyeceği anlamına gelir. Bu, Fiziksel Yapay Zeka'nın insan dünyasının inceliklerini anlama konusunda giderek daha yetkin hale geldiği verimli bir döngü yaratır. Hao Liu, Bin Xie ve Yi Yang'ın fiziksel eylem terimleriyle "düşünen" bir model yaratmadaki başarısı, gelecek nesil robotların yalnızca görevleri yerine getirmek üzere programlanmayacağını, aynı zamanda içinde bulundukları ortamlar hakkında doğal bir anlayışa sahip olacağını gösteriyor.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q DM0, geleneksel görme-dil-eylem modellerinden nasıl ayrılıyor?
A DM0, robot verileri üzerinde ince ayar yapılmış saf anlamsal görme-dil modellerini (VLM) uyarlamak yerine, yapısal çok kaynaklı fiziksel öncülleri birleştiren yerleşik-yerli (embodied-native) bir model olmasıyla geleneksel görme-dil-eylem (VLA) modellerinden ayrılır. Genelleştirilmiş temsilleri korumak için yerleşik verilerden gelen gradyanların VLM'ye geri yayılmadığı, aynı zamanda VLM'nin yerleşik olmayan veriler üzerinde eğitilmesine olanak tanıyan ve VLM üzerine inşa edilmiş bir akış eşleştirmeli (flow-matching) eylem uzmanını içeren hibrit bir eğitim stratejisi kullanır. Bu tasarım, π0 gibi temel modellere kıyasla karmaşık manipülasyon görevlerinde üstün performans sağlar.
Q DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir mi?
A Evet, DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir. Table30 gibi manipülasyon kıyaslamalarında meyveleri düzenleme ve kablo takma gibi görevlerde son teknoloji sonuçlar elde ederek mükemmel performans gösterir. Ayrıca mobil bağlamlara etkili bir şekilde genellenerek güçlü düşünce zinciri (chain-of-thought) muhakemesi ve mobil ajan uygulamaları için potansiyel sergiler.
Q DM0'ın üç aşamalı boru hattı (Ön Eğitim, Orta Eğitim ve Eğitim Sonrası) nedir?
A Arama sonuçları, DM0 için açıkça Ön Eğitim, Orta Eğitim ve Eğitim Sonrası'ndan oluşan üç aşamalı bir boru hattını tanımlamamaktadır. Bunun yerine, büyük ölçekli veri kümeleri üzerinde ortak eğitimi, bir VLM üzerinde akış eşleştirmeli eylem uzmanı oluşturmayı ve muhakeme ile kontrolü dengelemek için seçici gradyan geri yayılımını içeren hibrit bir eğitim stratejisini vurgulamaktadırlar. Çıkarım, doğrudan eylem tahminini veya eylemleri koşullandıran muhakemeli metinsel çıktıları destekler.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!