How does DM0 differ from traditional vision-language-action models?

DM0 differs from traditional vision-language-action (VLA) models by being an embodied-native model that incorporates intrinsic multi-source physical priors, rather than adapting purely semantic vision-language models (VLMs) fine-tuned on robot data. It employs a hybrid training strategy where a flow-matching action expert is built atop the VLM, with gradients from embodied data not backpropagated to the VLM to preserve generalized representations, while allowing VLM training on non-embodied data. This design enables superior performance in complex manipulation tasks compared to baselines like π0.

Can DM0 be used for both robot manipulation and navigation?

Yes, DM0 can be used for both robot manipulation and navigation. It excels in manipulation benchmarks like Table30, achieving state-of-the-art results in tasks such as arranging fruits and plugging cables. It also generalizes effectively to mobile contexts, showing strong chain-of-thought reasoning and potential for mobile agent applications.

What is the three-stage pipeline of DM0: Pretraining, Mid-Training, and Post-Training?

The search results do not explicitly describe a three-stage pipeline of Pretraining, Mid-Training, and Post-Training for DM0. Instead, they highlight a hybrid training strategy involving joint training on large-scale datasets, building a flow-matching action expert on a VLM, and selective gradient backpropagation to balance reasoning and control. Inference supports direct action prediction or reasoned textual outputs conditioning actions.

Fiziksel YZ: DM0 Geleneksel VLA Modellerinden Nasıl Ayrılıyor

Fiziksel Yapay Zeka, en başından itibaren fizik kurallarını ve uzamsal muhakemeyi entegre eden bir görü-dil-eylem (VLA) çerçevesi olan DM0'ın tanıtılmasıyla çok önemli bir dönüm noktasına ulaştı. İnternetteki metin ve görüntülerden uyarlanan önceki modellerin aksine, Hao Liu, Bin Xie ve Yi Yang, fiziksel etkileşimi bir ince ayar düşüncesi değil, birincil bir veri kaynağı olarak ele alan bir sistem geliştirdiler. Bu "eylemli-yerli" yaklaşım, robotların karmaşık ortamlarda gezinmesine ve nesneleri biyolojik öğrenmeyi yansıtan bir hassasiyet düzeyiyle manipüle etmesine olanak tanıyarak dijital muhakeme ile gerçek dünya uygulamaları arasındaki uzun süredir var olan boşluğu dolduruyor.

DM0 geleneksel görü-dil-eylem modellerinden nasıl ayrılıyor?

DM0, internette önceden eğitilmiş modellere ince ayar yapmak yerine, eğitimin başlangıcından itibaren içsel çok kaynaklı fiziksel öncülleri dahil ederek geleneksel VLA modellerinden ayrılır. Bir hibrit eğitim stratejisi ve bir akış eşleştirmeli eylem uzmanı kullanan DM0, genelleştirilmiş anlamsal temsilleri korurken aynı zamanda karmaşık robotik görevler için gereken yüksek frekanslı kontrolün üstesinden gelir ve π0 gibi karşılaştırmalı değerlendirmeleri etkili bir şekilde geride bırakır.

Geleneksel robotik yapay zeka, fiziksel dünyadan ziyade öncelikle internet metinleri üzerinde eğitilmiş modellerden uyarlandığı için genellikle zorluk yaşar. Bu "önce internet" modelleri, uzamsal zeka konusunda doğal bir anlayıştan yoksundur; bu durum, robotun "bardağı al" komutunu anlayabildiği ancak bunu yapmak için gereken torku veya yörüngeyi kavrayamadığı fiziksel hareketlerde "halüsinasyonlara" yol açar. Buna karşılık DM0, eylemli-yerli bir modeldir. Bu, fiziksel temellendirmeyi — görsel girdi, dilsel komutlar ve motor çıktısı arasındaki ilişkiyi — tek ve birleşik bir eylem dili olarak anlayacak şekilde oluşturulduğu anlamına gelir.

Fiziksel Yapay Zekada Eylemli-Yerli Zeka Kavramı

Eylemli-yerli zeka, bir yapay zeka modelinin temel fizik yasalarını ve uzamsal ilişkileri anlamsal dil verileriyle eş zamanlı olarak öğrendiği bir paradigmayı ifade eder. Bu yaklaşım, bir modelin yalnızca videoları izlediği veya açıklamaları okuduğu pasif gözlemin ötesine geçerek aktif fiziksel temellendirmeye ulaşır. DM0, otonom sürüş kayıtları ve robotik etkileşim verileri de dahil olmak üzere heterojen veri kaynakları üzerinde eğitim alarak, yalnızca internet tabanlı modellerin kopyalayamayacağı fiziksel dünya için bir "sağduyu" geliştirir.

Araştırma ekibi, temel mimari alt düzey kontrol için optimize edilmediğinden, internet modellerine fizik için ince ayar yapmanın karmaşık görevler için yetersiz olduğunu savunuyor. DM0, çeşitli korpuslardan gelen uzamsal bilgileri entegre ederek bu sorunu çözer. Örneğin, otonom sürüş senaryolarını dahil ederek model, hareket dinamiklerini ve engellerden kaçınmayı geniş ölçekte öğrenir. Bu fiziksel öncüller, modelin 2 boyutlu bir görüntüyü anlamaktan 3 boyutlu bir alanda derinlik ve sonuç duygusuyla hareket etmeye geçmesini sağlayan bir iskelet görevi görür.

DM0'ın üç aşamalı işlem hattı nedir: Ön Eğitim, Orta Eğitim ve Eğitim Sonrası?

DM0 işlem hattı; çeşitli web ve fiziksel korpuslar üzerinde birleşik Ön Eğitimden, akış eşleştirmeli bir eylem uzmanı geliştirmek için Orta Eğitimden ve göreve özel iyileştirme için Eğitim Sonrasından oluşur. Bu yapılandırılmış yaklaşım, modelin geniş anlamsal bilgiyi korumasını sağlarken, Fiziksel Yapay Zeka alanında hassas manipülasyon ve çevresel navigasyon için gerekli uzmanlaşmış motor becerileri kazanmasını sağlar.

Ön Eğitim aşamasında araştırmacılar, web metinleri, sürüş verileri ve etkileşim günlüklerini kullanarak Vision-Language Model (VLM) üzerinde büyük ölçekli eğitim gerçekleştirir. Bu aşama, fiziksel sezginin yanı sıra anlamsal bilgi edinmek için kritik öneme sahiptir. Bunu takiben, Orta Eğitim aşaması bir akış eşleştirmeli eylem uzmanını tanıtır. Bu bileşen, üst düzey muhakemeyi robotik kontrolün granüler gereksinimleriyle bağdaştırmak için VLM'nin üzerine inşa edilmiştir. Son olarak, Eğitim Sonrası aşaması, modelin uzmanlık gerektiren görevleri yüksek güvenilirlikle yerine getirebilmesini sağlamak için RoboChallenge karşılaştırmalı değerlendirmesi gibi belirli ortamlarda pekiştirmeli öğrenmeyi ve ince ayarı içerir.

DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir mi?

DM0, bu görevleri tek bir çerçeve içinde birleştirerek hem robot manipülasyonu hem de navigasyon yapabilen genel bir model olarak işlev görecek şekilde tasarlanmıştır. Manipülasyon için Table30 karşılaştırmalı değerlendirmesinde son teknoloji performans sergilerken, aynı zamanda ortamlar arasında gezinmesine ve kesintisiz bir iş akışının parçası olarak nesnelerle etkileşime girmesine olanak tanıyan sağlam bir uzamsal Düşünce Zinciri (CoT) muhakemesi sergiler.

Tarihsel olarak robotik sistemler kapalı kutular (silolar) şeklinde çalışmıştır: bir model A noktasından B noktasına gitmeyi (navigasyon) yönetirken, diğeri bir nesneyi almayı (manipülasyon) yönetir. DM0, her ikisini de eylemli eylemler olarak ele alarak bu siloları yıkar. Bu birleşme, modele hem geniş çevresel hareket hem de ince ayarlı el-göz koordinasyonu örnekleri sağlayan heterojen verilerle desteklenir. Pratik uygulamalarda bu, DM0 destekli bir robotun belirli bir meyveyi bulmak için bir mutfakta gezinebileceği ve ardından her adımın alt düzey fiziğini yönetirken üst düzey hedef odaklı odağını koruyarak onu bir kaseye hassas bir şekilde yerleştirebileceği anlamına gelir.

Teknik Atılımlar: Akış Eşleştirmeli Eylem Uzmanı

Akış eşleştirmeli eylem uzmanı, görsel ve dilsel girdileri fiziksel eylemlerle eşleştirerek DM0'ın kesin motor yörüngelerini tahmin etmesini sağlayan özel bir mimari bileşendir. Bu mekanizma, eylem görevlerinden gelen gradyanların çekirdek VLM'ye geri yayılmadığı bir hibrit eğitim stratejisi kullanır; böylece robot belirli Fiziksel Yapay Zeka becerilerini öğrenirken genel muhakeme yeteneklerinin "yıkıcı bir şekilde unutulması" önlenir.

Gradyan İzolasyonu: Eylemle ilgili gradyanların VLM'yi değiştirmesini engelleyerek DM0, bir vidanın nasıl döndürüleceğini öğrenmenin modelin karmaşık sözlü talimatları anlama yeteneğini bozmamasını sağlar.
Eylemli Uzamsal İskelet: Bu strateji, "eylem çözüm alanını" sınırlamak için Düşünce Zinciri muhakemesini kullanarak robotun hareketlerini uygulamadan önce mantıklı bir şekilde planlamasına yardımcı olur.
Verimlilik Kazanımları: Akış eşleştirme yaklaşımı, geleneksel difüzyon tabanlı modellere kıyasla eğitim sırasında daha hızlı yakınsama sağlayarak devasa veri kümeleri üzerinde eğitimi daha uygulanabilir hale getirir.

Fiziksel Yapay Zeka ve RoboChallenge Performansı İçin Gelecekteki Çıkarımlar

DM0'ın RoboChallenge karşılaştırmalı değerlendirmesindeki performansı, genel amaçlı evsel ve endüstriyel robotlar için standart olma potansiyelini göstermektedir. Table30'da hem Uzman hem de Genel ayarlarda son teknoloji sonuçlar elde eden DM0, eylemli-yerli modellerin kabloları takmaktan öğeleri sıralamaya kadar çok çeşitli görevleri minimum göreve özel programlama ile halledebileceğini kanıtlıyor.

Alan Uzamsal Zeka'ya doğru ilerledikçe, DM0 çerçevesi net bir yol haritası sunuyor. Çeşitli etkileşim günlüklerinden öğrenme yeteneği, dünyaya daha fazla robot girdikçe DM0 gibi modeller için veri havuzunun katlanarak büyüyeceği anlamına gelir. Bu, Fiziksel Yapay Zeka'nın insan dünyasının inceliklerini anlama konusunda giderek daha yetkin hale geldiği verimli bir döngü yaratır. Hao Liu, Bin Xie ve Yi Yang'ın fiziksel eylem terimleriyle "düşünen" bir model yaratmadaki başarısı, gelecek nesil robotların yalnızca görevleri yerine getirmek üzere programlanmayacağını, aynı zamanda içinde bulundukları ortamlar hakkında doğal bir anlayışa sahip olacağını gösteriyor.

DM0, Fiziksel Yapay Zekayı Somutlaşmış Eğitimle Yeniden Tanımlıyor

DM0 geleneksel görü-dil-eylem modellerinden nasıl ayrılıyor?

Fiziksel Yapay Zekada Eylemli-Yerli Zeka Kavramı

DM0'ın üç aşamalı işlem hattı nedir: Ön Eğitim, Orta Eğitim ve Eğitim Sonrası?

DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir mi?

Teknik Atılımlar: Akış Eşleştirmeli Eylem Uzmanı

Fiziksel Yapay Zeka ve RoboChallenge Performansı İçin Gelecekteki Çıkarımlar

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

DM0 geleneksel görü-dil-eylem modellerinden nasıl ayrılıyor?

Fiziksel Yapay Zekada Eylemli-Yerli Zeka Kavramı

DM0'ın üç aşamalı işlem hattı nedir: Ön Eğitim, Orta Eğitim ve Eğitim Sonrası?

DM0 hem robot manipülasyonu hem de navigasyon için kullanılabilir mi?

Teknik Atılımlar: Akış Eşleştirmeli Eylem Uzmanı

Fiziksel Yapay Zeka ve RoboChallenge Performansı İçin Gelecekteki Çıkarımlar

James Lawson

Readers Questions Answered

Have a question about this article?

Comments

4K Wallpaper Available