What is OmniPredict and what does it do?

OmniPredict is a multimodal AI system that uses a large language model architecture to fuse visual inputs with contextual signals and forecast a pedestrian's likely next move in real time. It accepts wide-angle scene images, close-up crops of pedestrians, bounding-box coordinates, and vehicle telemetry, and outputs probabilistic predictions about actions such as crossing, pausing in occluded areas, or shifting gaze.

How does OmniPredict classify pedestrian behavior?

OmniPredict maps its multimodal inputs to four behavior categories relevant for driving: crossing, occlusion, actions, and gaze. It uses cross-modal attention to link a distant body orientation with a local gesture, enabling predictions without hand-coded rules and allowing the model to infer short-term movement from the combination of pose, head direction, and context.

How well does it perform on benchmarks, and what are the caveats?

In lab tests, OmniPredict achieved about 67% prediction accuracy on JAAD and WiDEVIEW benchmarks, roughly 10 percentage points higher than recent baselines. Yet benchmark performance does not automatically translate to road safety; these datasets have narrower scenario distributions, and real-world driving can present rare events and adversarial conditions that challenge the model. The claim of generalisation beyond training data is highlighted by researchers as a key headline.

What needs to happen before deployment and what concerns exist?

Before deployment, OmniPredict remains a research prototype requiring long-term field trials, rigorous safety validation under corner cases, and integration tests showing how predictions influence motion planning. The work also calls for standards on acceptable false-positive and false-negative rates, plus ongoing auditing for bias, privacy, and the potential for a behavioural feedback loop where people change how they act around anticipatory systems.

Does OmniPredict read minds or access internal mental states?

Is OmniPredict attempting to read minds? The researchers emphasize that the system is not accessing internal intent or consciousness; it transforms visual cues and contextual data into statistical forecasts of near-term movement learned from past data, which can be confident yet incorrect if situations differ from training patterns.

OmniPredict prognostiziert Fußgängerbewegungen

Auf städtischen Straßen ist die sicherste Entscheidung im Bruchteil einer Sekunde oft diejenige, die man gar nicht erst treffen muss. Diese Woche stellten Forscher der Texas A&M und Partner aus Korea OmniPredict vor, ein KI-System, das mehr tut, als nur eine Person auf der Straße zu erkennen: Es versucht abzuleiten, was diese Person als Nächstes tun wird. Beschrieben in einem von Experten begutachteten Artikel in Computers & Electrical Engineering, kombiniert OmniPredict Szenenbilder, Nahaufnahmen, Bounding-Boxes, Fahrzeugtelemetrie und einfache Verhaltenssignale, um die wahrscheinliche Aktion eines Fußgängers in Echtzeit vorherzusagen.

Ein Modell, das antizipiert, statt nur zu erkennen

Herkömmliche Stacks für autonome Fahrzeuge trennen Wahrnehmung von Planung: Kameras und Lidar erkennen Objekte, woraufhin nachgelagerte Module entscheiden, wie gebremst oder gelenkt wird. OmniPredict ersetzt diese starre Pipeline durch eine Architektur auf Basis eines multimodalen großen Sprachmodells (MLLM), die visuelle und kontextuelle Eingaben verschmilzt und eine probabilistische Vorhersage über menschliches Verhalten erstellt – etwa ob jemand die Straße überqueren wird, in einem verdeckten Bereich stehen bleibt, einen Blick in Richtung des Fahrzeugs wirft oder eine andere Aktion ausführt. In Labortests berichtet das Team von einer Vorhersagegenauigkeit von etwa 67 % bei etablierten Benchmarks für Fußgängerverhalten, was einer Leistungssteigerung von etwa zehn Prozentpunkten gegenüber aktuellen State-of-the-Art-Methoden entspricht.

Die Forscher interpretieren diesen Fortschritt als einen Übergang von reaktiver Automatisierung hin zu antizipatorischer Autonomie. „Städte sind unberechenbar. Fußgänger können unberechenbar sein“, so der Projektleiter. Er merkte an, dass ein Auto, das einen wahrscheinlichen Schritt auf die Fahrbahn antizipiert, früher und sanfter planen kann, was potenziell Beinaheunfälle reduziert. Das Ergebnis ist kein gedankenlesendes Orakel, sondern eine statistische Engine, die visuelle Hinweise – Körperhaltung, Kopfrichtung, Verdeckung, Fahrzeuggeschwindigkeit – in eine kurzfristige Bewegungsprognose umwandelt.

Wie OmniPredict die Szene liest

Im technischen Kern nutzt OmniPredict ein MLLM – eine Architektur, die zunehmend für Chat- und Bildaufgaben verwendet wird –, das darauf angepasst wurde, Videoframes und strukturierte kontextuelle Signale zu interpretieren. Zu den Eingaben gehören ein Weitwinkel-Szenenbild, gezoomte Ausschnitte einzelner Fußgänger, Bounding-Box-Koordinaten und einfache Sensordaten wie die Fahrzeuggeschwindigkeit. Das Modell verarbeitet diese multimodalen Ströme gemeinsam und ordnet sie vier Verhaltenskategorien zu, die das Team für den Fahrkontext als nützlich erachtet hat: Überqueren, Verdeckung, Aktionen und Blickrichtung.

Zwei Eigenschaften sind dabei entscheidend. Erstens ermöglicht die modalitätsübergreifende Aufmerksamkeit (Cross-Modal Attention) des MLLM dem Modell, eine entfernte Körperausrichtung mit einer lokalen Geste zu verknüpfen – beispielsweise jemanden, der seinen Oberkörper dreht, während er auf ein Telefon nach unten schaut –, ohne dass dafür maßgeschneiderte, handcodierte Regeln erforderlich sind. Zweitens scheint das System zu generalisieren: Die Forscher ließen OmniPredict auf zwei anspruchsvollen öffentlichen Datensätzen für Fußgängerverhalten (JAAD und WiDEVIEW) laufen, ohne ein spezielles, datensatzspezifisches Training durchzuführen, und erzielten dennoch Ergebnisse über dem Stand der Technik. Diese Generalisierungsfähigkeit ist der zentrale Anspruch, weshalb die Gruppe OmniPredict als eine „Reasoning“-Schicht beschreibt, die über der reinen Wahrnehmung angesiedelt ist.

Benchmarks, Grenzen und die Realitätslücke

Benchmarks erzählen nur einen Teil der Geschichte. Die berichtete Genauigkeit von 67 % und die Verbesserung um 10 % gegenüber aktuellen Baselines sind in akademischen Vergleichen bedeutsam, lassen sich aber nicht automatisch in straßentaugliche Sicherheit übersetzen. Benchmarks enthalten viele wiederkehrende Muster und eine engere Verteilung von Szenarien als der reale Stadtverkehr; seltene Ereignisse, adversarielles Verhalten und ungewöhnliches Wetter bringen Modellannahmen oft ins Wanken, sobald die Systeme das Labor verlassen.

Kritiker weisen schnell darauf hin, dass Formulierungen wie „menschliche Gedanken lesen“ Gefahr laufen, das Ergebnis überzubewerten. Die Vorhersagen des Modells leiten sich aus statistischen Assoziationen ab, die aus vergangenen Daten gelernt wurden: Ähnliche visuelle Kontexte im Trainingsset führten zu ähnlichen Ergebnissen. Das ist leistungsstark, aber nicht dasselbe wie der Zugriff auf menschliche Absichten oder interne mentale Zustände. In der Praxis werden Fußgänger durch lokale Kultur, Straßengestaltung und soziale Signale beeinflusst; eine KI, die diese Ebenen nicht berücksichtigt, kann zwar sichere, aber falsche Vorhersagen treffen.

Sicherheit, Privatsphäre und Verhaltensrückkopplung

Wenn ein Fahrzeug seine Planung darauf ausrichtet, was es von Ihnen erwartet, könnte sich das menschliche Verhalten als Reaktion darauf ändern – ein Punkt, der manchmal als Verhaltens-Rückkopplungsschleife bezeichnet wird. Menschen, die wissen, dass Autos sie antizipieren, könnten mehr Risiken eingehen oder umgekehrt vorsichtiger werden; jede Dynamik kann die statistischen Beziehungen verändern, auf denen das Modell basiert. Dies macht eine kontinuierliche Validierung im praktischen Einsatz unerlässlich.

Das Vertrauen des Systems auf visuelle und kontextuelle Hinweise wirft zudem Fragen zur Privatsphäre und Gerechtigkeit auf. Modelle, die auf urbanem Bildmaterial trainiert wurden, erben oft die Voreingenommenheiten und blinden Flecken ihrer Datensätze: wer aufgezeichnet wurde, unter welchen Bedingungen und mit welchen Kameras. Schwächen bei der Erkennung bestimmter Hauttöne, Kleidungsstile oder Körperformen könnten sich in unterschiedlicher Vorhersagequalität für verschiedene Bevölkerungsgruppen niederschlagen. Ingenieurteams müssen daher Datensatzdiversität, Transparenz über Modellfehlermodi sowie Verfahren zur Prüfung und Minderung voreingenommenen Verhaltens priorisieren.

Von multimodalen LLMs zu hirninspirierten Architekturen

Die Parallele ist eher konzeptionell als wörtlich zu verstehen. Aktuelle KI repliziert nicht das menschliche Bewusstsein oder die Mechanismen echter Absicht. Aber Inspirationen aus der neuronalen Organisation – wie Netzwerke Informationen routen und spezialisierte Module bilden – können Ingenieuren helfen, Systeme zu entwerfen, die Geschwindigkeit, Robustheit und Anpassungsfähigkeit auf chaotischen Stadtstraßen besser in Einklang bringen.

Was vor einem Einsatz geschehen muss

OmniPredict ist ein Forschungsprototyp, kein fertiger Autonomie-Stack. Vor einem Einsatz in Fahrzeugen benötigt es Langzeit-Feldtests, eine strenge Sicherheitsvalidierung in Grenzfällen (Corner Cases) und Integrationstests, die zeigen, wie Verhaltensvorhersagen die Bewegungsplanung beeinflussen sollten. Regulierungsbehörden und Hersteller werden zudem Standards für akzeptable Raten von Falsch-Positiven und Falsch-Negativen festlegen müssen, wenn ein System menschliche Handlungen vorhersagt – Abwägungen, die klare Sicherheitsimplikationen haben.

Schließlich unterstreicht das Projekt eine wiederkehrende Wahrheit der angewandten KI: Genauigkeit bei kuratierten Tests ist notwendig, aber nicht ausreichend. Systeme in der realen Welt müssen auditierbar, fair und robust gegenüber Verschiebungen in der Datenverteilung sein; sie müssen bei Unsicherheit kontrolliert reagieren (Graceful Degradation). Die Aussicht auf Maschinen, die menschliche Bewegungen „antizipieren“, ist attraktiv für die Sicherheit und den Verkehrsfluss in der Stadt, bringt jedoch technische, ethische und rechtliche Fragen mit sich, die geklärt werden sollten, bevor Autos auf Basis dieser Vorhersagen irreversible Entscheidungen treffen.

Die Arbeit der Texas A&M und ihrer Partner deutet auf eine nahe Zukunft hin, in der Wahrnehmung, Kontext und Verhaltenslogik untrennbare Komponenten autonomer Systeme sind. Diese Zukunft wird nur dann sicherer sein, wenn sie die neue Vorhersageebene mit konservativem Sicherheitsdesign, sorgfältigen Tests und klaren Regeln für Transparenz und Rechenschaftspflicht kombiniert.

Quellen

Computers & Electrical Engineering (Forschungsarbeit zu OmniPredict)
Texas A&M University College of Engineering
Korea Advanced Institute of Science and Technology (KAIST)
Nature Machine Intelligence (Forschung zu neuromorphen Netzwerken)
McGill University / The Neuro (Montreal Neurological Institute-Hospital)

KI prognostiziert die nächsten Schritte von Fußgängern

Ein Modell, das antizipiert, statt nur zu erkennen

Wie OmniPredict die Szene liest

Benchmarks, Grenzen und die Realitätslücke

Sicherheit, Privatsphäre und Verhaltensrückkopplung

Von multimodalen LLMs zu hirninspirierten Architekturen

Was vor einem Einsatz geschehen muss

Quellen

Schlagwörter

Mattias Risberg

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare