World Action Models vs. VLA: Die Vorhersage der Physik

Eilmeldung Technologie
Close-up of a sleek robotic hand reaching toward a floating, rippling sphere of light against a dark background.
4K Quality
Während aktuelle Vision-Language-Action-Modelle exzellent darin sind, Befehle zu verstehen, haben sie oft Schwierigkeiten, die unvorhersehbare Physik neuer Umgebungen zu bewältigen. DreamZero führt einen Wandel hin zu World Action Models ein und nutzt Video-Diffusion, um Robotern zu helfen, die visuellen und physischen Folgen ihrer Handlungen in Echtzeit vorherzusagen.

Die **Fusion** von Videodiffusionstechnologie und Robotersteuerung hat zu einem bedeutenden Durchbruch in der Art und Weise geführt, wie künstliche Intelligenz mit der physischen Welt interagiert. Während herkömmliche Vision-Language-Action (VLA)-Modelle geschickt darin sind, sprachlichen Befehlen zu folgen, scheitern sie häufig an der unvorhersehbaren Physik neuartiger Umgebungen. Um dies zu lösen, haben die Forscher Kyungmin Lee, Jing Wang und Jan Kautz DreamZero vorgestellt, ein World Action Model (WAM), das es Robotern ermöglicht, die visuellen und physischen Konsequenzen ihrer Handlungen vorherzusagen. Indem diese neue Architektur Video als eine dichte Repräsentation der Umweltentwicklung behandelt, verleiht sie Robotern eine Form von physikalischer Intuition, die es ihnen ermöglicht, sich mit beispielloser Genauigkeit an unbekannte Szenarien anzupassen.

Die Grenzen semantischer KI in physischen Räumen

Moderne Robotik stützt sich oft auf semantische Generalisierung, die einem Roboter hilft, Objekte zu identifizieren, sich aber nicht in erfolgreiche physische Bewegungen in neuen Umgebungen übersetzen lässt. Vision-Language-Action (VLA)-Modelle sind typischerweise exzellent darin zu verstehen, „was“ ein Objekt ist, aber sie haben Schwierigkeiten damit, „wie“ man es manipuliert, wenn sich Beleuchtung, Ausrichtung oder Umgebungsdynamik ändern. Diese Lücke besteht, weil diesen Modellen ein World Model fehlt – eine interne Simulation, welche die kausale Beziehung zwischen einem Motorbefehl und seinem physischen Ergebnis versteht.

Die Forschung zeigt, dass beim Eintritt eines Roboters in eine neue Umgebung das Fehlen einer physischen Fundierung dazu führt, dass sich autoregressive Fehler potenzieren. Kleine Fehler in der Anfangsphase einer Aufgabe führen zu einem vollständigen Zusammenbruch der Ausführung, da das Modell den zukünftigen Zustand der Welt, die es erschafft, nicht „sehen“ kann. Um dies zu beheben, verschiebt DreamZero das Paradigma von der einfachen Aktionsvorhersage hin zu einer umfassenden Modellierung der physischen Dynamik. So wird sichergestellt, dass der Roboter die visuelle und taktile Entwicklung seines Arbeitsbereichs während jeder Millisekunde einer Aufgabe versteht.

Wie unterscheiden sich World Action Models von Vision-Language-Action (VLA)-Modellen?

World Action Models (WAMs) wie DreamZero unterscheiden sich von Vision-Language-Action (VLA)-Modellen durch die Integration von Weltmodellierung, die zukünftige visuelle Zustände vorhersagt. Während VLAs Eingaben direkt auf Aktionen abbilden, erreichen WAMs eine physische Fusion von Videogenerierung und Aktionsvorhersage. Dies ermöglicht es dem Modell, die zugrunde liegende Physik zu verinnerlichen und die visuellen Konsequenzen seines Verhaltens vorherzusagen, bevor es Bewegungen ausführt.

Im Gegensatz zu Standard-VLAs, die oft an engen, repetitiven Demonstrationen trainiert werden, nutzt DreamZero ein autoregressives Videodiffusionsmodell mit 14 Milliarden Parametern. Dieses Grundgerüst ermöglicht es dem Roboter, sich „vorzustellen“, wie die Welt aussehen sollte, während er eine Aufgabe ausführt. Durch die gemeinsame Modellierung von Video und Aktion lernt das World Action Model vielfältige Fähigkeiten aus heterogenen Datenquellen. Diese Methodik führt in realen Roboterexperimenten zu einer zweifachen Verbesserung der Generalisierung auf neue Aufgaben und Umgebungen im Vergleich zu modernsten VLAs.

Warum haben traditionelle KI-Modelle Schwierigkeiten mit unbekannten physischen Bewegungen?

Traditionelle KI-Modelle haben Schwierigkeiten mit unbekannten physischen Bewegungen, weil ihnen eine inhärente Repräsentation der Umgebungsdynamik und Physik fehlt. Diese Modelle verlassen sich in der Regel auf direkte Zuordnungen von Beobachtung zu Aktion, welche die kausalen Zusammenhänge zwischen Bewegungen und ihren Ergebnissen nicht berücksichtigen. Das Fehlen eines prädiktiven World Model führt zu schlechter Leistung und Fehlerfortpflanzung, wenn das Modell auf neue Szenarien trifft.

In der Praxis bedeutet dies, dass ein herkömmlicher Roboter zwar wissen könnte, wie man einen blauen Block in einer Laborumgebung aufhebt, aber wenn der Block durch eine etwas schwerere rote Kugel in einem Raum mit anderen Schatten ersetzt wird, scheitert die Aktionssequenz des Modells. Dieser Fehler tritt auf, weil das Modell keine „Intuition“ hinsichtlich der Dichte der Umgebung hat oder wie seine eigenen Greifer mit unterschiedlichen Oberflächen interagieren. DreamZero überwindet dies, indem es Videodiffusions-Backbones als Grundlage nutzt und die visuelle Welt als einen vorhersagbaren Fluss physischer Ereignisse behandelt, anstatt als eine Serie statischer, unzusammenhängender Bilder.

DreamZero: Architektur eines World Action Models

Die Kernarchitektur von DreamZero basiert auf einem vorab trainierten Videodiffusions-Backbone, das als generativer Weltsimulator fungiert. Dieses Modell sagt nicht nur die nächste Gelenkbewegung des Roboters voraus; es prognostiziert die nächsten Videobilder dessen, was die Kameras des Roboters sehen werden. Durch die Abstimmung dieser visuellen Vorhersagen mit Low-Level-Aktionstoken stellt das Modell sicher, dass seine Bewegungen physisch konsistent mit den Gesetzen der Welt sind, die es beobachtet.

  • Gemeinsame Modellierung: Gleichzeitige Vorhersage von Videobildern und Roboteraktionen, um das physische Verständnis mit der motorischen Ausführung zu synchronisieren.
  • Dichte Repräsentation: Nutzung von Video als primäre Datenquelle, um subtile physikalische Nuancen wie Reibung, Schwerkraft und Objektpermanenz zu erfassen.
  • Heterogene Daten: Lernen aus einer breiten Palette von Roboterdaten und menschlichen Videos, anstatt sich auf tausende identische Labordemonstrationen zu verlassen.

Kann DreamZero lernen, Aufgaben durch das Beobachten von Menschen auszuführen?

DreamZero kann komplexe Aufgaben durch das Beobachten menschlicher Videodemonstrationen erlernen, dank seiner robusten Cross-Embodiment-Fähigkeiten. Durch die Analyse menschlicher Bewegungen als dichte Videorepräsentation erreicht das Modell eine Fusion aus menschenzentrierten visuellen Daten und Robotersteuerung. Dies ermöglicht es dem System, physische Bewegungsmuster zu extrahieren und sie mit nur 10 bis 20 Minuten Demonstrationsdaten auf seine eigene Roboterhardware anzuwenden.

Diese Fähigkeit, bekannt als Cross-Embodiment-Transfer, stellt einen großen Sprung in Richtung General Purpose Robotics dar. In Tests ergaben reine Videodemonstrationen von Menschen eine relative Verbesserung von über 42% bei der Leistung bei unbekannten Aufgaben. Dies deutet darauf hin, dass das Modell nicht bloß Pixel imitiert, sondern die grundlegende Physik der ausgeführten Aufgabe versteht. Unabhängig davon, ob der Demonstrator eine menschliche Hand oder ein anderer Roboterarm ist, identifiziert DreamZero das Ziel und die physischen Schritte, die zu dessen Erreichung erforderlich sind.

Echtzeitsteuerung und Systemoptimierung

Die Ausführung eines Modells mit 14 Milliarden Parametern in Echtzeit ist eine erhebliche technische Herausforderung, die DreamZero durch umfassende Modell- und Systemoptimierungen bewältigt. Herkömmliche großskalige Modelle sind oft zu langsam für die in der Robotik erforderlichen Reaktionen im Millisekundenbereich. Den Forschern gelang jedoch eine 7-Hz-Closed-Loop-Steuerung, die schnell genug ist, damit der Roboter auf Umweltveränderungen reagieren kann, während sie geschehen.

Diese Optimierungen schließen die Lücke zwischen High-Level-Denkprozessen – wie „mache ein Sandwich“ – und den granularen Motorbefehlen, die zur Ausführung der Aufgabe erforderlich sind. Durch den effizienten Betrieb des autoregressiven Videodiffusionsmodells hält DreamZero eine konstante Feedbackschleife aufrecht. Wenn ein Objekt verrutscht oder sich die Umgebung während der Aktion ändert, aktualisiert das Modell gleichzeitig seine visuelle Vorhersage und seinen Aktionsplan und bewahrt so eine Stabilität, die frühere großskalige Modelle nicht leisten konnten.

Die Zukunft der Zero-Shot-Generalisierung in der Robotik

Der vielleicht überraschendste Befund der Forschung ist die Fähigkeit von DreamZero, eine Few-Shot-Embodiment-Adaption durchzuführen. Das Modell kann seine erlernten Fähigkeiten mit nur 30 Minuten „Spiel-Daten“ auf völlig neue Roboterhardware übertragen. Das bedeutet, dass ein Modell, das an einem bestimmten Typ von Industriearm trainiert wurde, schnell an ein anderes Modell oder sogar einen humanoiden Roboter angepasst werden kann, ohne seine Zero-Shot-Generalisierungsfähigkeiten zu verlieren.

Da sich der Bereich der Robotik hin zu komplexeren und unvorhersehbaren Umgebungen bewegt, wird die Fusion von generativen Videomodellen und Aktionsvorhersage wahrscheinlich zum Standard werden. Die Arbeit von NVIDIA Research und den Autoren zeigt, dass World Action Models den notwendigen „physischen gesunden Menschenverstand“ liefern, der der KI bisher fehlte. Zukünftige Iterationen dieser Technologie könnten zu Robotern führen, die jedes Haus oder jede Fabrik betreten und nach nur wenigen Minuten Beobachtung sicher und effektiv Aufgaben ausführen können.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Leserfragen beantwortet

Q Wie unterscheiden sich World Action Models von Vision-Language-Action (VLA)-Modellen?
A World Action Models, wie in DreamZero, integrieren Weltmodelle, die zukünftige Bilder vorhersagen und zugrunde liegende physikalische Gesetzmäßigkeiten erlernen. Sie unterscheiden sich von Vision-Language-Action (VLA)-Modellen, die visuelle und sprachliche Eingaben direkt auf Roboteraktionen abbilden, ohne eine explizite Weltsimulation durchzuführen. VLAs konzentrieren sich auf die End-to-End-Aktionsgenerierung aus Beobachtungen und Anweisungen, während World Action Models wie WorldVLA die Aktionsvorhersage mit Weltmodellierung kombinieren, um eine gegenseitige Verbesserung und eine bessere physikalische Intuition zu erreichen. Diese Vereinheitlichung adressiert die Einschränkungen von VLAs bei der Generalisierung auf unbekannte Dynamiken.
Q Kann DreamZero lernen, Aufgaben durch das Beobachten von Menschen auszuführen?
A Ja, DreamZero kann Aufgaben durch das Beobachten von Menschen erlernen, da seine World Action Models auf Demonstrationen einschließlich menschlicher Teleoperationsdaten trainiert werden, was die Imitation physischer Bewegungen ermöglicht. Ähnlich wie VLAs nutzt es visuelle Beobachtungen menschlicher Darbietungen, um entsprechende Aktionen zu generieren, verstärkt durch Weltmodellvorhersagen physikalischer Ergebnisse.
Q Warum haben traditionelle KI-Modelle Schwierigkeiten mit unbekannten physischen Bewegungen?
A Traditionelle KI-Modelle haben Schwierigkeiten mit unbekannten physischen Bewegungen aufgrund der begrenzten Generalisierungsfähigkeit bei der autoregressiven Aktionsvorhersage, bei der sich Fehler von frühen Aktionen auf spätere übertragen und ein Verständnis der zugrunde liegenden Physik fehlt. Sie verlassen sich auf eine direkte Abbildung von Beobachtungen auf Aktionen ohne Weltmodelle zur Simulation und Vorhersage der Umgebungsdynamik, was zu einer schlechten Leistung in neuartigen Szenarien führt.

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!