Auf städtischen Straßen ist die sicherste Entscheidung im Bruchteil einer Sekunde oft diejenige, die man gar nicht erst treffen muss. Diese Woche stellten Forscher der Texas A&M und Partner aus Korea OmniPredict vor, ein KI-System, das mehr tut, als nur eine Person auf der Straße zu erkennen: Es versucht abzuleiten, was diese Person als Nächstes tun wird. Beschrieben in einem von Experten begutachteten Artikel in Computers & Electrical Engineering, kombiniert OmniPredict Szenenbilder, Nahaufnahmen, Bounding-Boxes, Fahrzeugtelemetrie und einfache Verhaltenssignale, um die wahrscheinliche Aktion eines Fußgängers in Echtzeit vorherzusagen.
Ein Modell, das antizipiert, statt nur zu erkennen
Herkömmliche Stacks für autonome Fahrzeuge trennen Wahrnehmung von Planung: Kameras und Lidar erkennen Objekte, woraufhin nachgelagerte Module entscheiden, wie gebremst oder gelenkt wird. OmniPredict ersetzt diese starre Pipeline durch eine Architektur auf Basis eines multimodalen großen Sprachmodells (MLLM), die visuelle und kontextuelle Eingaben verschmilzt und eine probabilistische Vorhersage über menschliches Verhalten erstellt – etwa ob jemand die Straße überqueren wird, in einem verdeckten Bereich stehen bleibt, einen Blick in Richtung des Fahrzeugs wirft oder eine andere Aktion ausführt. In Labortests berichtet das Team von einer Vorhersagegenauigkeit von etwa 67 % bei etablierten Benchmarks für Fußgängerverhalten, was einer Leistungssteigerung von etwa zehn Prozentpunkten gegenüber aktuellen State-of-the-Art-Methoden entspricht.
Die Forscher interpretieren diesen Fortschritt als einen Übergang von reaktiver Automatisierung hin zu antizipatorischer Autonomie. „Städte sind unberechenbar. Fußgänger können unberechenbar sein“, so der Projektleiter. Er merkte an, dass ein Auto, das einen wahrscheinlichen Schritt auf die Fahrbahn antizipiert, früher und sanfter planen kann, was potenziell Beinaheunfälle reduziert. Das Ergebnis ist kein gedankenlesendes Orakel, sondern eine statistische Engine, die visuelle Hinweise – Körperhaltung, Kopfrichtung, Verdeckung, Fahrzeuggeschwindigkeit – in eine kurzfristige Bewegungsprognose umwandelt.
Wie OmniPredict die Szene liest
Im technischen Kern nutzt OmniPredict ein MLLM – eine Architektur, die zunehmend für Chat- und Bildaufgaben verwendet wird –, das darauf angepasst wurde, Videoframes und strukturierte kontextuelle Signale zu interpretieren. Zu den Eingaben gehören ein Weitwinkel-Szenenbild, gezoomte Ausschnitte einzelner Fußgänger, Bounding-Box-Koordinaten und einfache Sensordaten wie die Fahrzeuggeschwindigkeit. Das Modell verarbeitet diese multimodalen Ströme gemeinsam und ordnet sie vier Verhaltenskategorien zu, die das Team für den Fahrkontext als nützlich erachtet hat: Überqueren, Verdeckung, Aktionen und Blickrichtung.
Zwei Eigenschaften sind dabei entscheidend. Erstens ermöglicht die modalitätsübergreifende Aufmerksamkeit (Cross-Modal Attention) des MLLM dem Modell, eine entfernte Körperausrichtung mit einer lokalen Geste zu verknüpfen – beispielsweise jemanden, der seinen Oberkörper dreht, während er auf ein Telefon nach unten schaut –, ohne dass dafür maßgeschneiderte, handcodierte Regeln erforderlich sind. Zweitens scheint das System zu generalisieren: Die Forscher ließen OmniPredict auf zwei anspruchsvollen öffentlichen Datensätzen für Fußgängerverhalten (JAAD und WiDEVIEW) laufen, ohne ein spezielles, datensatzspezifisches Training durchzuführen, und erzielten dennoch Ergebnisse über dem Stand der Technik. Diese Generalisierungsfähigkeit ist der zentrale Anspruch, weshalb die Gruppe OmniPredict als eine „Reasoning“-Schicht beschreibt, die über der reinen Wahrnehmung angesiedelt ist.
Benchmarks, Grenzen und die Realitätslücke
Benchmarks erzählen nur einen Teil der Geschichte. Die berichtete Genauigkeit von 67 % und die Verbesserung um 10 % gegenüber aktuellen Baselines sind in akademischen Vergleichen bedeutsam, lassen sich aber nicht automatisch in straßentaugliche Sicherheit übersetzen. Benchmarks enthalten viele wiederkehrende Muster und eine engere Verteilung von Szenarien als der reale Stadtverkehr; seltene Ereignisse, adversarielles Verhalten und ungewöhnliches Wetter bringen Modellannahmen oft ins Wanken, sobald die Systeme das Labor verlassen.
Kritiker weisen schnell darauf hin, dass Formulierungen wie „menschliche Gedanken lesen“ Gefahr laufen, das Ergebnis überzubewerten. Die Vorhersagen des Modells leiten sich aus statistischen Assoziationen ab, die aus vergangenen Daten gelernt wurden: Ähnliche visuelle Kontexte im Trainingsset führten zu ähnlichen Ergebnissen. Das ist leistungsstark, aber nicht dasselbe wie der Zugriff auf menschliche Absichten oder interne mentale Zustände. In der Praxis werden Fußgänger durch lokale Kultur, Straßengestaltung und soziale Signale beeinflusst; eine KI, die diese Ebenen nicht berücksichtigt, kann zwar sichere, aber falsche Vorhersagen treffen.
Sicherheit, Privatsphäre und Verhaltensrückkopplung
Wenn ein Fahrzeug seine Planung darauf ausrichtet, was es von Ihnen erwartet, könnte sich das menschliche Verhalten als Reaktion darauf ändern – ein Punkt, der manchmal als Verhaltens-Rückkopplungsschleife bezeichnet wird. Menschen, die wissen, dass Autos sie antizipieren, könnten mehr Risiken eingehen oder umgekehrt vorsichtiger werden; jede Dynamik kann die statistischen Beziehungen verändern, auf denen das Modell basiert. Dies macht eine kontinuierliche Validierung im praktischen Einsatz unerlässlich.
Das Vertrauen des Systems auf visuelle und kontextuelle Hinweise wirft zudem Fragen zur Privatsphäre und Gerechtigkeit auf. Modelle, die auf urbanem Bildmaterial trainiert wurden, erben oft die Voreingenommenheiten und blinden Flecken ihrer Datensätze: wer aufgezeichnet wurde, unter welchen Bedingungen und mit welchen Kameras. Schwächen bei der Erkennung bestimmter Hauttöne, Kleidungsstile oder Körperformen könnten sich in unterschiedlicher Vorhersagequalität für verschiedene Bevölkerungsgruppen niederschlagen. Ingenieurteams müssen daher Datensatzdiversität, Transparenz über Modellfehlermodi sowie Verfahren zur Prüfung und Minderung voreingenommenen Verhaltens priorisieren.
Von multimodalen LLMs zu hirninspirierten Architekturen
Die Parallele ist eher konzeptionell als wörtlich zu verstehen. Aktuelle KI repliziert nicht das menschliche Bewusstsein oder die Mechanismen echter Absicht. Aber Inspirationen aus der neuronalen Organisation – wie Netzwerke Informationen routen und spezialisierte Module bilden – können Ingenieuren helfen, Systeme zu entwerfen, die Geschwindigkeit, Robustheit und Anpassungsfähigkeit auf chaotischen Stadtstraßen besser in Einklang bringen.
Was vor einem Einsatz geschehen muss
OmniPredict ist ein Forschungsprototyp, kein fertiger Autonomie-Stack. Vor einem Einsatz in Fahrzeugen benötigt es Langzeit-Feldtests, eine strenge Sicherheitsvalidierung in Grenzfällen (Corner Cases) und Integrationstests, die zeigen, wie Verhaltensvorhersagen die Bewegungsplanung beeinflussen sollten. Regulierungsbehörden und Hersteller werden zudem Standards für akzeptable Raten von Falsch-Positiven und Falsch-Negativen festlegen müssen, wenn ein System menschliche Handlungen vorhersagt – Abwägungen, die klare Sicherheitsimplikationen haben.
Schließlich unterstreicht das Projekt eine wiederkehrende Wahrheit der angewandten KI: Genauigkeit bei kuratierten Tests ist notwendig, aber nicht ausreichend. Systeme in der realen Welt müssen auditierbar, fair und robust gegenüber Verschiebungen in der Datenverteilung sein; sie müssen bei Unsicherheit kontrolliert reagieren (Graceful Degradation). Die Aussicht auf Maschinen, die menschliche Bewegungen „antizipieren“, ist attraktiv für die Sicherheit und den Verkehrsfluss in der Stadt, bringt jedoch technische, ethische und rechtliche Fragen mit sich, die geklärt werden sollten, bevor Autos auf Basis dieser Vorhersagen irreversible Entscheidungen treffen.
Die Arbeit der Texas A&M und ihrer Partner deutet auf eine nahe Zukunft hin, in der Wahrnehmung, Kontext und Verhaltenslogik untrennbare Komponenten autonomer Systeme sind. Diese Zukunft wird nur dann sicherer sein, wenn sie die neue Vorhersageebene mit konservativem Sicherheitsdesign, sorgfältigen Tests und klaren Regeln für Transparenz und Rechenschaftspflicht kombiniert.
Quellen
- Computers & Electrical Engineering (Forschungsarbeit zu OmniPredict)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (Forschung zu neuromorphen Netzwerken)
- McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Kommentare
Noch keine Kommentare. Seien Sie der Erste!