KI prognostiziert die nächsten Schritte von Fußgängern

K.I.
AI Predicts Pedestrians’ Next Move
Eine neue multimodale KI namens OmniPredict nutzt ein großes Modell im GPT-4o-Stil, um Fußgängeraktionen in Echtzeit vorherzusagen, und übertrifft dabei herkömmliche Bildverarbeitungssysteme in Standard-Benchmarks. Forscher geben an, dass dies die Planung autonomer Fahrzeuge – und anderer Maschinen – im Umgang mit Menschen verändern könnte, doch die Behauptung, das System könne „Gedanken lesen“, bedarf einer kritischen Prüfung.

Auf städtischen Straßen ist die sicherste Entscheidung im Bruchteil einer Sekunde oft diejenige, die man gar nicht erst treffen muss. Diese Woche stellten Forscher der Texas A&M und Partner aus Korea OmniPredict vor, ein KI-System, das mehr tut, als nur eine Person auf der Straße zu erkennen: Es versucht abzuleiten, was diese Person als Nächstes tun wird. Beschrieben in einem von Experten begutachteten Artikel in Computers & Electrical Engineering, kombiniert OmniPredict Szenenbilder, Nahaufnahmen, Bounding-Boxes, Fahrzeugtelemetrie und einfache Verhaltenssignale, um die wahrscheinliche Aktion eines Fußgängers in Echtzeit vorherzusagen.

Ein Modell, das antizipiert, statt nur zu erkennen

Herkömmliche Stacks für autonome Fahrzeuge trennen Wahrnehmung von Planung: Kameras und Lidar erkennen Objekte, woraufhin nachgelagerte Module entscheiden, wie gebremst oder gelenkt wird. OmniPredict ersetzt diese starre Pipeline durch eine Architektur auf Basis eines multimodalen großen Sprachmodells (MLLM), die visuelle und kontextuelle Eingaben verschmilzt und eine probabilistische Vorhersage über menschliches Verhalten erstellt – etwa ob jemand die Straße überqueren wird, in einem verdeckten Bereich stehen bleibt, einen Blick in Richtung des Fahrzeugs wirft oder eine andere Aktion ausführt. In Labortests berichtet das Team von einer Vorhersagegenauigkeit von etwa 67 % bei etablierten Benchmarks für Fußgängerverhalten, was einer Leistungssteigerung von etwa zehn Prozentpunkten gegenüber aktuellen State-of-the-Art-Methoden entspricht.

Die Forscher interpretieren diesen Fortschritt als einen Übergang von reaktiver Automatisierung hin zu antizipatorischer Autonomie. „Städte sind unberechenbar. Fußgänger können unberechenbar sein“, so der Projektleiter. Er merkte an, dass ein Auto, das einen wahrscheinlichen Schritt auf die Fahrbahn antizipiert, früher und sanfter planen kann, was potenziell Beinaheunfälle reduziert. Das Ergebnis ist kein gedankenlesendes Orakel, sondern eine statistische Engine, die visuelle Hinweise – Körperhaltung, Kopfrichtung, Verdeckung, Fahrzeuggeschwindigkeit – in eine kurzfristige Bewegungsprognose umwandelt.

Wie OmniPredict die Szene liest

Im technischen Kern nutzt OmniPredict ein MLLM – eine Architektur, die zunehmend für Chat- und Bildaufgaben verwendet wird –, das darauf angepasst wurde, Videoframes und strukturierte kontextuelle Signale zu interpretieren. Zu den Eingaben gehören ein Weitwinkel-Szenenbild, gezoomte Ausschnitte einzelner Fußgänger, Bounding-Box-Koordinaten und einfache Sensordaten wie die Fahrzeuggeschwindigkeit. Das Modell verarbeitet diese multimodalen Ströme gemeinsam und ordnet sie vier Verhaltenskategorien zu, die das Team für den Fahrkontext als nützlich erachtet hat: Überqueren, Verdeckung, Aktionen und Blickrichtung.

Zwei Eigenschaften sind dabei entscheidend. Erstens ermöglicht die modalitätsübergreifende Aufmerksamkeit (Cross-Modal Attention) des MLLM dem Modell, eine entfernte Körperausrichtung mit einer lokalen Geste zu verknüpfen – beispielsweise jemanden, der seinen Oberkörper dreht, während er auf ein Telefon nach unten schaut –, ohne dass dafür maßgeschneiderte, handcodierte Regeln erforderlich sind. Zweitens scheint das System zu generalisieren: Die Forscher ließen OmniPredict auf zwei anspruchsvollen öffentlichen Datensätzen für Fußgängerverhalten (JAAD und WiDEVIEW) laufen, ohne ein spezielles, datensatzspezifisches Training durchzuführen, und erzielten dennoch Ergebnisse über dem Stand der Technik. Diese Generalisierungsfähigkeit ist der zentrale Anspruch, weshalb die Gruppe OmniPredict als eine „Reasoning“-Schicht beschreibt, die über der reinen Wahrnehmung angesiedelt ist.

Benchmarks, Grenzen und die Realitätslücke

Benchmarks erzählen nur einen Teil der Geschichte. Die berichtete Genauigkeit von 67 % und die Verbesserung um 10 % gegenüber aktuellen Baselines sind in akademischen Vergleichen bedeutsam, lassen sich aber nicht automatisch in straßentaugliche Sicherheit übersetzen. Benchmarks enthalten viele wiederkehrende Muster und eine engere Verteilung von Szenarien als der reale Stadtverkehr; seltene Ereignisse, adversarielles Verhalten und ungewöhnliches Wetter bringen Modellannahmen oft ins Wanken, sobald die Systeme das Labor verlassen.

Kritiker weisen schnell darauf hin, dass Formulierungen wie „menschliche Gedanken lesen“ Gefahr laufen, das Ergebnis überzubewerten. Die Vorhersagen des Modells leiten sich aus statistischen Assoziationen ab, die aus vergangenen Daten gelernt wurden: Ähnliche visuelle Kontexte im Trainingsset führten zu ähnlichen Ergebnissen. Das ist leistungsstark, aber nicht dasselbe wie der Zugriff auf menschliche Absichten oder interne mentale Zustände. In der Praxis werden Fußgänger durch lokale Kultur, Straßengestaltung und soziale Signale beeinflusst; eine KI, die diese Ebenen nicht berücksichtigt, kann zwar sichere, aber falsche Vorhersagen treffen.

Sicherheit, Privatsphäre und Verhaltensrückkopplung

Wenn ein Fahrzeug seine Planung darauf ausrichtet, was es von Ihnen erwartet, könnte sich das menschliche Verhalten als Reaktion darauf ändern – ein Punkt, der manchmal als Verhaltens-Rückkopplungsschleife bezeichnet wird. Menschen, die wissen, dass Autos sie antizipieren, könnten mehr Risiken eingehen oder umgekehrt vorsichtiger werden; jede Dynamik kann die statistischen Beziehungen verändern, auf denen das Modell basiert. Dies macht eine kontinuierliche Validierung im praktischen Einsatz unerlässlich.

Das Vertrauen des Systems auf visuelle und kontextuelle Hinweise wirft zudem Fragen zur Privatsphäre und Gerechtigkeit auf. Modelle, die auf urbanem Bildmaterial trainiert wurden, erben oft die Voreingenommenheiten und blinden Flecken ihrer Datensätze: wer aufgezeichnet wurde, unter welchen Bedingungen und mit welchen Kameras. Schwächen bei der Erkennung bestimmter Hauttöne, Kleidungsstile oder Körperformen könnten sich in unterschiedlicher Vorhersagequalität für verschiedene Bevölkerungsgruppen niederschlagen. Ingenieurteams müssen daher Datensatzdiversität, Transparenz über Modellfehlermodi sowie Verfahren zur Prüfung und Minderung voreingenommenen Verhaltens priorisieren.

Von multimodalen LLMs zu hirninspirierten Architekturen

Die Parallele ist eher konzeptionell als wörtlich zu verstehen. Aktuelle KI repliziert nicht das menschliche Bewusstsein oder die Mechanismen echter Absicht. Aber Inspirationen aus der neuronalen Organisation – wie Netzwerke Informationen routen und spezialisierte Module bilden – können Ingenieuren helfen, Systeme zu entwerfen, die Geschwindigkeit, Robustheit und Anpassungsfähigkeit auf chaotischen Stadtstraßen besser in Einklang bringen.

Was vor einem Einsatz geschehen muss

OmniPredict ist ein Forschungsprototyp, kein fertiger Autonomie-Stack. Vor einem Einsatz in Fahrzeugen benötigt es Langzeit-Feldtests, eine strenge Sicherheitsvalidierung in Grenzfällen (Corner Cases) und Integrationstests, die zeigen, wie Verhaltensvorhersagen die Bewegungsplanung beeinflussen sollten. Regulierungsbehörden und Hersteller werden zudem Standards für akzeptable Raten von Falsch-Positiven und Falsch-Negativen festlegen müssen, wenn ein System menschliche Handlungen vorhersagt – Abwägungen, die klare Sicherheitsimplikationen haben.

Schließlich unterstreicht das Projekt eine wiederkehrende Wahrheit der angewandten KI: Genauigkeit bei kuratierten Tests ist notwendig, aber nicht ausreichend. Systeme in der realen Welt müssen auditierbar, fair und robust gegenüber Verschiebungen in der Datenverteilung sein; sie müssen bei Unsicherheit kontrolliert reagieren (Graceful Degradation). Die Aussicht auf Maschinen, die menschliche Bewegungen „antizipieren“, ist attraktiv für die Sicherheit und den Verkehrsfluss in der Stadt, bringt jedoch technische, ethische und rechtliche Fragen mit sich, die geklärt werden sollten, bevor Autos auf Basis dieser Vorhersagen irreversible Entscheidungen treffen.

Die Arbeit der Texas A&M und ihrer Partner deutet auf eine nahe Zukunft hin, in der Wahrnehmung, Kontext und Verhaltenslogik untrennbare Komponenten autonomer Systeme sind. Diese Zukunft wird nur dann sicherer sein, wenn sie die neue Vorhersageebene mit konservativem Sicherheitsdesign, sorgfältigen Tests und klaren Regeln für Transparenz und Rechenschaftspflicht kombiniert.

Quellen

  • Computers & Electrical Engineering (Forschungsarbeit zu OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (Forschung zu neuromorphen Netzwerken)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Leserfragen beantwortet

Q Was ist OmniPredict und was macht es?
A OmniPredict ist ein multimodales KI-System, das eine Large-Language-Model-Architektur nutzt, um visuelle Eingaben mit kontextuellen Signalen zu verschmelzen und die wahrscheinliche nächste Bewegung eines Fußgängers in Echtzeit vorherzusagen. Es verarbeitet Weitwinkelaufnahmen der Szene, Nahaufnahmen von Fußgängern, Bounding-Box-Koordinaten sowie Fahrzeugtelemetrie und liefert probabilistische Vorhersagen über Aktionen wie das Überqueren der Straße, das Verweilen in verdeckten Bereichen oder Blickrichtungswechsel.
Q Wie klassifiziert OmniPredict das Verhalten von Fußgängern?
A OmniPredict ordnet seine multimodalen Eingaben vier fahrrelevanten Verhaltenskategorien zu: Überqueren, Verdeckung, Aktionen und Blickrichtung. Es nutzt modalitätenübergreifende Aufmerksamkeit (Cross-Modal Attention), um eine entfernte Körperorientierung mit einer lokalen Geste zu verknüpfen. Dies ermöglicht Vorhersagen ohne handcodierte Regeln und erlaubt es dem Modell, kurzfristige Bewegungen aus der Kombination von Pose, Kopfrichtung und Kontext abzuleiten.
Q Wie gut schneidet es in Benchmarks ab und welche Vorbehalte gibt es?
A In Labortests erreichte OmniPredict eine Vorhersagegenauigkeit von etwa 67 % bei den Benchmarks JAAD und WiDEVIEW, was rund 10 Prozentpunkte über den aktuellen Vergleichswerten liegt. Die Leistung in Benchmarks lässt sich jedoch nicht automatisch auf die Verkehrssicherheit übertragen; diese Datensätze weisen engere Szenario-Verteilungen auf, und das Fahren in der realen Welt kann seltene Ereignisse und widrige Bedingungen mit sich bringen, die das Modell herausfordern. Die Forscher heben die Behauptung der Generalisierung über die Trainingsdaten hinaus als zentralen Aspekt hervor.
Q Was muss vor einem Einsatz passieren und welche Bedenken gibt es?
A Vor einem Einsatz bleibt OmniPredict ein Forschungsprototyp, der langfristige Feldversuche, eine strenge Sicherheitsvalidierung in Grenzfällen (Corner Cases) und Integrationstests erfordert, die zeigen, wie die Vorhersagen die Bewegungsplanung beeinflussen. Die Arbeit fordert zudem Standards für akzeptable Raten an falsch-positiven und falsch-negativen Ergebnissen sowie fortlaufende Prüfungen auf Voreingenommenheit (Bias), Datenschutz und das Potenzial für eine Verhaltensrückkopplungsschleife, bei der Menschen ihr Verhalten in der Nähe von vorausschauenden Systemen ändern.
Q Liest OmniPredict Gedanken oder greift es auf interne mentale Zustände zu?
A Versucht OmniPredict, Gedanken zu lesen? Die Forscher betonen, dass das System nicht auf interne Absichten oder das Bewusstsein zugreift; es wandelt visuelle Hinweise und kontextbezogene Daten in statistische Prognosen über kurzfristige Bewegungen um, die aus vergangenen Daten gelernt wurden. Diese können zwar überzeugt, aber dennoch falsch sein, wenn sich Situationen von den Trainingsmustern unterscheiden.

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!