Op stadsstraten is de veiligste beslissing in een fractie van een seconde vaak de beslissing die je nooit hoeft te nemen. Deze week onthulden onderzoekers van Texas A&M en samenwerkingspartners in Korea OmniPredict, een AI-systeem dat meer doet dan alleen een persoon op de weg spotten: het probeert af te leiden wat die persoon vervolgens zal doen. OmniPredict, beschreven in een peer-reviewed artikel in Computers & Electrical Engineering, combineert omgevingsbeelden, close-ups, bounding boxes, voertuigtelemetrie en eenvoudige gedragssignalen om in real-time de waarschijnlijke actie van een voetganger te voorspellen.
Een model dat anticipeert, niet alleen detecteert
Traditionele stacks voor autonome voertuigen scheiden perceptie van planning: camera's en lidar detecteren objecten, waarna downstream-modules beslissen hoe te remmen of te sturen. OmniPredict vervangt die rigide pijplijn door een architectuur van een multimodaal groot taalmodel (MLLM) die visuele en contextuele inputs samenvoegt en een probabilistische voorspelling genereert over menselijk gedrag — of iemand zal oversteken, zal pauzeren in een afgeschermd gebied, naar het voertuig zal kijken of een andere actie zal uitvoeren. In laboratoriumtests rapporteert het team een voorspellingsnauwkeurigheid van ongeveer 67% op gevestigde benchmarks voor voetgangersgedrag, een prestatiewinst van ongeveer tien procentpunten ten opzichte van recente state-of-the-art methoden.
De onderzoekers kaderen de vooruitgang als een verschuiving van reactieve automatisering naar anticiperende autonomie. "Steden zijn onvoorspelbaar. Voetgangers kunnen onvoorspelbaar zijn", aldus de projectleider, die opmerkt dat een auto die anticipeert op een waarschijnlijke stap op de weg, eerder en soepeler kan plannen, wat het aantal bijna-ongevallen potentieel vermindert. Het resultaat is geen menselijk gedachtenlezend orakel, maar een statistische motor die visuele signalen — houding, hoofdrichting, occlusie, voertuigsnelheid — omzet in een kortetermijnvoorspelling van beweging.
Hoe OmniPredict de scène leest
In de technische kern maakt OmniPredict gebruik van een MLLM — het soort architectuur dat steeds vaker wordt gebruikt voor chat- en beeldtaken — aangepast om videoframes en gestructureerde contextuele signalen te interpreteren. Inputs omvatten een groothoekbeeld van de scène, ingezoomde uitsneden van individuele voetgangers, coördinaten van bounding boxes en eenvoudige sensorgegevens zoals de voertuigsnelheid. Het model verwerkt deze multimodale stromen samen en koppelt ze aan vier gedragscategorieën die het team nuttig vond voor rijcontexten: oversteken, occlusie, acties en blikrichting.
Twee eigenschappen zijn van belang. Ten eerste stelt de cross-modale aandacht van het MLLM het model in staat om een verre lichaamsoriëntatie te koppelen aan een lokaal gebaar — bijvoorbeeld iemand die zijn torso draait terwijl hij naar beneden kijkt naar een telefoon — zonder op maat gemaakte, handgecodeerde regels. Ten tweede lijkt het systeem te generaliseren: de onderzoekers draaiden OmniPredict op twee uitdagende publieke datasets voor voetgangersgedrag (JAAD en WiDEVIEW) zonder specifieke training voor die datasets en zagen nog steeds resultaten die boven de huidige state-of-the-art lagen. Die generalisatie is de belangrijkste claim, en dat is waarom de groep OmniPredict beschrijft als een "redeneringslaag" die bovenop de ruwe perceptie ligt.
Benchmarks, limieten en de kloof met de realiteit
Benchmarks vertellen slechts een deel van het verhaal. De gerapporteerde nauwkeurigheid van 67% en een verbetering van 10% ten opzichte van recente uitgangspunten zijn betekenisvol in academische vergelijkingen, maar ze vertalen zich niet automatisch naar veiligheid op de weg. Benchmarks bevatten veel herhaalde patronen en een nauwere spreiding van scenario's dan rijden in een echte stad; zeldzame gebeurtenissen, onvoorspelbaar gedrag en ongebruikelijk weer overstijgen vaak de aannames van het model zodra systemen het lab verlaten.
Critici wijzen er snel op dat de terminologie "het lezen van menselijke gedachten" het risico loopt het resultaat te overschatten. De voorspellingen van het model zijn afgeleid van statistische associaties die zijn geleerd uit gegevens uit het verleden: vergelijkbare visuele contexten in de trainingsset leidden tot vergelijkbare resultaten. Dat is krachtig, maar het is niet hetzelfde als toegang hebben tot menselijke intenties of interne mentale toestanden. In de praktijk worden voetgangers beïnvloed door lokale cultuur, straatontwerp en sociale signalen; een AI die geen rekening houdt met die lagen, kan zelfverzekerde maar foute voorspellingen doen.
Veiligheid, privacy en gedragsmatige feedback
Als een voertuig plant op basis van wat het verwacht dat u gaat doen, kan het menselijk gedrag veranderen als reactie — een punt dat soms de gedragsmatige feedbackloop wordt genoemd. Mensen die weten dat auto's op hen anticiperen, nemen misschien meer risico's, of worden juist voorzichtiger; beide dynamieken kunnen de statistische relaties waarvan het model afhankelijk is, veranderen. Dat maakt continue validatie in de praktijk essentieel.
Het feit dat het systeem vertrouwt op visuele en contextuele signalen roept ook vragen op over privacy en gelijkheid. Modellen die getraind zijn op stedelijke beelden erven vaak de vooroordelen en blinde vlekken van hun datasets: wie werd er opgenomen, onder welke omstandigheden en met welke camera's. Zwaktes in de detectie van bepaalde huidtinten, kledingtypes of lichaamsvormen zouden zich kunnen vertalen in een verschillende voorspellingskwaliteit tussen bevolkingsgroepen. Engineeringteams moeten daarom prioriteit geven aan diversiteit in datasets, transparantie over de foutmodi van het model en procedures om bevooroordeeld gedrag te controleren en te beperken.
Van multimodale LLM's naar breininspiratie
De parallel is eerder conceptueel dan letterlijk. De huidige AI repliceert het menselijk bewustzijn of de mechanismen van echte intentie niet. Maar inspiratie putten uit neurale organisatie — hoe netwerken informatie routeren en gespecialiseerde modules vormen — kan ingenieurs helpen systemen te ontwerpen die een betere balans vinden tussen snelheid, robuustheid en aanpassingsvermogen in chaotische stadsstraten.
Wat er moet gebeuren voor implementatie
OmniPredict is een onderzoeksprototype, geen voltooide stack voor autonomie. Voordat het in voertuigen kan worden ingezet, zijn langdurige praktijkproeven, rigoureuze veiligheidsvalidatie in randgevallen en integratietests nodig die laten zien hoe gedragsvoorspellingen de bewegingsplanning moeten beïnvloeden. Toezichthouders en fabrikanten zullen ook moeten beslissen over normen voor acceptabele percentages fout-positieven en fout-negatieven wanneer een systeem menselijke acties voorspelt — afwegingen die duidelijke veiligheidsimplicaties hebben.
Ten slotte onderstreept het project een terugkerende waarheid van toegepaste AI: nauwkeurigheid op samengestelde tests is noodzakelijk maar niet voldoende. Systemen in de echte wereld moeten controleerbaar, eerlijk en robuust zijn tegen verschuivingen in de distributie; ze moeten op een veilige manier afschalen wanneer er onzekerheid is. Het vooruitzicht van machines die menselijke bewegingen "anticiperen" is aantrekkelijk voor de veiligheid en doorstroming in het stedelijk vervoer, maar het brengt technische, ethische en juridische vragen met zich mee die opgelost moeten worden voordat auto's onomkeerbare beslissingen nemen op basis van die voorspellingen.
Het werk van Texas A&M en partners wijst op een nabije toekomst waarin perceptie, context en gedragsmatig redeneren onafscheidelijke componenten zijn van autonome systemen. Die toekomst zal alleen veiliger zijn als de nieuwe voorspellende laag wordt gecombineerd met een conservatief veiligheidsontwerp, zorgvuldige tests en duidelijke regels voor transparantie en verantwoording.
Bronnen
- Computers & Electrical Engineering (onderzoekspaper over OmniPredict)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (onderzoek naar neuromorfe netwerken)
- McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Comments
No comments yet. Be the first!