AI voorspelt de volgende beweging van voetgangers

AI
AI Predicts Pedestrians’ Next Move
Een nieuwe multimodale AI genaamd OmniPredict gebruikt een op GPT-4o gebaseerd groot model om acties van voetgangers in realtime te anticiperen, waarbij het traditionele visiesystemen op standaard benchmarks overtreft. Onderzoekers stellen dat dit de manier waarop zelfrijdende voertuigen – en andere machines – rekening houden met mensen kan veranderen, maar de bewering dat het systeem "gedachten leest" vereist kritische kanttekeningen.

Op stadsstraten is de veiligste beslissing in een fractie van een seconde vaak de beslissing die je nooit hoeft te nemen. Deze week onthulden onderzoekers van Texas A&M en samenwerkingspartners in Korea OmniPredict, een AI-systeem dat meer doet dan alleen een persoon op de weg spotten: het probeert af te leiden wat die persoon vervolgens zal doen. OmniPredict, beschreven in een peer-reviewed artikel in Computers & Electrical Engineering, combineert omgevingsbeelden, close-ups, bounding boxes, voertuigtelemetrie en eenvoudige gedragssignalen om in real-time de waarschijnlijke actie van een voetganger te voorspellen.

Een model dat anticipeert, niet alleen detecteert

Traditionele stacks voor autonome voertuigen scheiden perceptie van planning: camera's en lidar detecteren objecten, waarna downstream-modules beslissen hoe te remmen of te sturen. OmniPredict vervangt die rigide pijplijn door een architectuur van een multimodaal groot taalmodel (MLLM) die visuele en contextuele inputs samenvoegt en een probabilistische voorspelling genereert over menselijk gedrag — of iemand zal oversteken, zal pauzeren in een afgeschermd gebied, naar het voertuig zal kijken of een andere actie zal uitvoeren. In laboratoriumtests rapporteert het team een voorspellingsnauwkeurigheid van ongeveer 67% op gevestigde benchmarks voor voetgangersgedrag, een prestatiewinst van ongeveer tien procentpunten ten opzichte van recente state-of-the-art methoden.

De onderzoekers kaderen de vooruitgang als een verschuiving van reactieve automatisering naar anticiperende autonomie. "Steden zijn onvoorspelbaar. Voetgangers kunnen onvoorspelbaar zijn", aldus de projectleider, die opmerkt dat een auto die anticipeert op een waarschijnlijke stap op de weg, eerder en soepeler kan plannen, wat het aantal bijna-ongevallen potentieel vermindert. Het resultaat is geen menselijk gedachtenlezend orakel, maar een statistische motor die visuele signalen — houding, hoofdrichting, occlusie, voertuigsnelheid — omzet in een kortetermijnvoorspelling van beweging.

Hoe OmniPredict de scène leest

In de technische kern maakt OmniPredict gebruik van een MLLM — het soort architectuur dat steeds vaker wordt gebruikt voor chat- en beeldtaken — aangepast om videoframes en gestructureerde contextuele signalen te interpreteren. Inputs omvatten een groothoekbeeld van de scène, ingezoomde uitsneden van individuele voetgangers, coördinaten van bounding boxes en eenvoudige sensorgegevens zoals de voertuigsnelheid. Het model verwerkt deze multimodale stromen samen en koppelt ze aan vier gedragscategorieën die het team nuttig vond voor rijcontexten: oversteken, occlusie, acties en blikrichting.

Twee eigenschappen zijn van belang. Ten eerste stelt de cross-modale aandacht van het MLLM het model in staat om een verre lichaamsoriëntatie te koppelen aan een lokaal gebaar — bijvoorbeeld iemand die zijn torso draait terwijl hij naar beneden kijkt naar een telefoon — zonder op maat gemaakte, handgecodeerde regels. Ten tweede lijkt het systeem te generaliseren: de onderzoekers draaiden OmniPredict op twee uitdagende publieke datasets voor voetgangersgedrag (JAAD en WiDEVIEW) zonder specifieke training voor die datasets en zagen nog steeds resultaten die boven de huidige state-of-the-art lagen. Die generalisatie is de belangrijkste claim, en dat is waarom de groep OmniPredict beschrijft als een "redeneringslaag" die bovenop de ruwe perceptie ligt.

Benchmarks, limieten en de kloof met de realiteit

Benchmarks vertellen slechts een deel van het verhaal. De gerapporteerde nauwkeurigheid van 67% en een verbetering van 10% ten opzichte van recente uitgangspunten zijn betekenisvol in academische vergelijkingen, maar ze vertalen zich niet automatisch naar veiligheid op de weg. Benchmarks bevatten veel herhaalde patronen en een nauwere spreiding van scenario's dan rijden in een echte stad; zeldzame gebeurtenissen, onvoorspelbaar gedrag en ongebruikelijk weer overstijgen vaak de aannames van het model zodra systemen het lab verlaten.

Critici wijzen er snel op dat de terminologie "het lezen van menselijke gedachten" het risico loopt het resultaat te overschatten. De voorspellingen van het model zijn afgeleid van statistische associaties die zijn geleerd uit gegevens uit het verleden: vergelijkbare visuele contexten in de trainingsset leidden tot vergelijkbare resultaten. Dat is krachtig, maar het is niet hetzelfde als toegang hebben tot menselijke intenties of interne mentale toestanden. In de praktijk worden voetgangers beïnvloed door lokale cultuur, straatontwerp en sociale signalen; een AI die geen rekening houdt met die lagen, kan zelfverzekerde maar foute voorspellingen doen.

Veiligheid, privacy en gedragsmatige feedback

Als een voertuig plant op basis van wat het verwacht dat u gaat doen, kan het menselijk gedrag veranderen als reactie — een punt dat soms de gedragsmatige feedbackloop wordt genoemd. Mensen die weten dat auto's op hen anticiperen, nemen misschien meer risico's, of worden juist voorzichtiger; beide dynamieken kunnen de statistische relaties waarvan het model afhankelijk is, veranderen. Dat maakt continue validatie in de praktijk essentieel.

Het feit dat het systeem vertrouwt op visuele en contextuele signalen roept ook vragen op over privacy en gelijkheid. Modellen die getraind zijn op stedelijke beelden erven vaak de vooroordelen en blinde vlekken van hun datasets: wie werd er opgenomen, onder welke omstandigheden en met welke camera's. Zwaktes in de detectie van bepaalde huidtinten, kledingtypes of lichaamsvormen zouden zich kunnen vertalen in een verschillende voorspellingskwaliteit tussen bevolkingsgroepen. Engineeringteams moeten daarom prioriteit geven aan diversiteit in datasets, transparantie over de foutmodi van het model en procedures om bevooroordeeld gedrag te controleren en te beperken.

Van multimodale LLM's naar breininspiratie

De parallel is eerder conceptueel dan letterlijk. De huidige AI repliceert het menselijk bewustzijn of de mechanismen van echte intentie niet. Maar inspiratie putten uit neurale organisatie — hoe netwerken informatie routeren en gespecialiseerde modules vormen — kan ingenieurs helpen systemen te ontwerpen die een betere balans vinden tussen snelheid, robuustheid en aanpassingsvermogen in chaotische stadsstraten.

Wat er moet gebeuren voor implementatie

OmniPredict is een onderzoeksprototype, geen voltooide stack voor autonomie. Voordat het in voertuigen kan worden ingezet, zijn langdurige praktijkproeven, rigoureuze veiligheidsvalidatie in randgevallen en integratietests nodig die laten zien hoe gedragsvoorspellingen de bewegingsplanning moeten beïnvloeden. Toezichthouders en fabrikanten zullen ook moeten beslissen over normen voor acceptabele percentages fout-positieven en fout-negatieven wanneer een systeem menselijke acties voorspelt — afwegingen die duidelijke veiligheidsimplicaties hebben.

Ten slotte onderstreept het project een terugkerende waarheid van toegepaste AI: nauwkeurigheid op samengestelde tests is noodzakelijk maar niet voldoende. Systemen in de echte wereld moeten controleerbaar, eerlijk en robuust zijn tegen verschuivingen in de distributie; ze moeten op een veilige manier afschalen wanneer er onzekerheid is. Het vooruitzicht van machines die menselijke bewegingen "anticiperen" is aantrekkelijk voor de veiligheid en doorstroming in het stedelijk vervoer, maar het brengt technische, ethische en juridische vragen met zich mee die opgelost moeten worden voordat auto's onomkeerbare beslissingen nemen op basis van die voorspellingen.

Het werk van Texas A&M en partners wijst op een nabije toekomst waarin perceptie, context en gedragsmatig redeneren onafscheidelijke componenten zijn van autonome systemen. Die toekomst zal alleen veiliger zijn als de nieuwe voorspellende laag wordt gecombineerd met een conservatief veiligheidsontwerp, zorgvuldige tests en duidelijke regels voor transparantie en verantwoording.

Bronnen

  • Computers & Electrical Engineering (onderzoekspaper over OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (onderzoek naar neuromorfe netwerken)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Wat is OmniPredict en wat doet het?
A OmniPredict is een multimodaal AI-systeem dat een architectuur van grote taalmodellen gebruikt om visuele input te combineren met contextuele signalen en de waarschijnlijke volgende beweging van een voetganger in realtime te voorspellen. Het accepteert groothoekbeelden van de omgeving, close-ups van voetgangers, coördinaten van begrenzingskaders en voertuigtelemetrie, en genereert probabilistische voorspellingen over acties zoals oversteken, pauzeren in onoverzichtelijke gebieden of het veranderen van de blikrichting.
Q Hoe classificeert OmniPredict het gedrag van voetgangers?
A OmniPredict koppelt zijn multimodale inputs aan vier gedragscategorieën die relevant zijn voor autorijden: oversteken, occlusie, acties en blikrichting. Het maakt gebruik van 'cross-modal attention' om een lichaamshouding op afstand te koppelen aan een lokaal gebaar, wat voorspellingen mogelijk maakt zonder handmatig gecodeerde regels. Hierdoor kan het model kortetermijnbewegingen afleiden uit de combinatie van houding, hoofdrichting en context.
Q Hoe goed presteert het op benchmarks en wat zijn de kanttekeningen?
A In laboratoriumtests behaalde OmniPredict een voorspellingsnauwkeurigheid van ongeveer 67% op JAAD- en WiDEVIEW-benchmarks, wat ruwweg 10 procentpunt hoger is dan recente basiswaarden. Toch vertalen benchmarkprestaties zich niet automatisch naar verkeersveiligheid; deze datasets hebben beperktere scenario-verdelingen en autorijden in de echte wereld kan zeldzame gebeurtenissen en vijandige omstandigheden presenteren die het model uitdagen. De claim van generalisatie buiten de trainingsdata wordt door onderzoekers benadrukt als een belangrijk resultaat.
Q Wat moet er gebeuren vóór implementatie en welke zorgen zijn er?
A Vóór implementatie blijft OmniPredict een onderzoeksprototype dat langdurige praktijktests, strikte veiligheidsvalidatie onder uitzonderlijke omstandigheden (corner cases) en integratietests vereist die aantonen hoe voorspellingen de bewegingsplanning beïnvloeden. Het werk pleit ook voor standaarden voor acceptabele fout-positieve en fout-negatieve ratio's, evenals voortdurende controles op bias, privacy en het potentieel voor een gedragsmatige feedbackloop waarbij mensen hun gedrag aanpassen aan anticiperende systemen.
Q Kan OmniPredict gedachten lezen of heeft het toegang tot interne mentale toestanden?
A Probeert OmniPredict gedachten te lezen? De onderzoekers benadrukken dat het systeem geen toegang heeft tot interne intenties of bewustzijn; het zet visuele aanwijzingen en contextuele data om in statistische prognoses van bewegingen op korte termijn, geleerd uit eerdere data. Deze voorspellingen kunnen overtuigend zijn maar toch onjuist als situaties afwijken van trainingspatronen.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!