AI förutspår fotgängares nästa drag

AI Predicts Pedestrians’ Next Move
En ny multimodal AI vid namn OmniPredict använder en storskalig modell i GPT-4o-stil för att förutse fotgängares handlingar i realtid, vilket överträffar traditionella bildigenkänningssystem i standardiserade prestandatester. Forskare menar att det kan förändra hur autonoma fordon – och andra maskiner – planerar sin rutt kring människor, men påståendet att systemet ”läser tankar” kräver kritisk granskning.

På stadsgator är det säkraste blixtsnabba beslutet ofta det som du aldrig behöver fatta. Denna vecka presenterade forskare vid Texas A&M och samarbetspartners i Korea OmniPredict, ett AI-system som gör mer än att bara upptäcka en person på vägen: det försöker härleda vad den personen kommer att göra härnäst. OmniPredict, som beskrivs i en expertgranskad artikel i Computers & Electrical Engineering, kombinerar scenbilder, närbilder, avgränsningsrutor (bounding boxes), fordonstelemetri och enkla beteendemässiga ledtrådar för att förutse en fotgängares sannolika handling i realtid.

En modell som förutser snarare än bara upptäcker

Traditionella systemstackar för autonoma fordon separerar perception från planering: kameror och lidar upptäcker objekt, varpå efterföljande moduler beslutar hur fordonet ska bromsa eller styra. OmniPredict ersätter den stela pipelinen med en arkitektur baserad på en multimodal stor språkmodell (MLLM) som sammanfogar visuella och kontextuella indata och producerar en probabilistisk förutsägelse om mänskligt beteende – oavsett om någon kommer att korsa vägen, stanna i ett skymt område, blicka mot fordonet eller utföra en annan handling. I laboratorietester rapporterar teamet en förutsägelseprecision på ungefär 67 % på etablerade riktmärken för fotgängarbeteende, en prestandaökning på cirka tio procentenheter jämfört med nyligen publicerade state-of-the-art-metoder.

Forskarna beskriver framsteget som ett skifte från reaktiv automation mot föregripande autonomi. "Städer är oförutsägbara. Fotgängare kan vara oförutsägbara", sade projektledaren och noterade att en bil som förutser ett sannolikt steg ut i vägen kan planera tidigare och smidigare, vilket potentiellt minskar antalet tillbud. Resultatet är inte ett mänskligt tankeläsande orakel, utan en statistisk motor som omvandlar visuella ledtrådar – kroppshållning, huvudriktning, ocklusion, fordonshastighet – till en kortsiktig prognos av rörelse.

Hur OmniPredict läser av omgivningen

Kärnan i tekniken är att OmniPredict använder en MLLM – den typ av arkitektur som i allt högre grad används för chatt- och bilduppgifter – anpassad för att tolka videoframes och strukturerade kontextuella signaler. Indata inkluderar en vidvinkelbild av scenen, inzoomade utsnitt av enskilda fotgängare, koordinater för avgränsningsrutor och enkla sensordata såsom fordonshastighet. Modellen bearbetar dessa multimodala strömmar tillsammans och mappar dem till fyra beteendekategorier som teamet fann användbara för körkontexter: korsande, ocklusion (skymning), handlingar och blick.

Två egenskaper är av betydelse. För det första tillåter MLLM-modellens korsmodala uppmärksamhet systemet att koppla en avlägsen kroppsorientering till en lokal gest – till exempel någon som vrider sin torso medan de tittar ner i en telefon – utan skräddarsydda, handkodade regler. För det andra verkar systemet kunna generalisera: forskarna körde OmniPredict på två utmanande offentliga dataset för fotgängarbeteende (JAAD och WiDEVIEW) utan skräddarsydd, datasetspecifik träning och såg fortfarande resultat som överträffade state-of-the-art. Denna generalisering är det viktigaste påståendet, och det är därför gruppen beskriver OmniPredict som ett "resonerande" lager som ligger ovanpå den rena perceptionen.

Riktmärken, begränsningar och verklighetsglappet

Riktmärken (benchmarks) berättar bara en del av historien. Den rapporterade noggrannheten på 67 % och en förbättring på 10 % jämfört med nyligen fastställda basnivåer är betydelsefulla i akademiska jämförelser, men de översätts inte automatiskt till trafiksäkerhet. Riktmärken innehåller många upprepade mönster och en snävare fördelning av scenarier än verklig stadskörning; sällsynta händelser, avvikande beteenden och ovanligt väder kullkastar ofta modellens antaganden när systemen lämnar laboratoriet.

Kritiker är snabba med att påpeka att språkbruk om att "läsa mänskliga tankar" riskerar att överskatta resultatet. Modellens förutsägelser härstammar från statistiska kopplingar som lärts in från tidigare data: liknande visuella kontexter i träningssetet ledde till liknande utfall. Det är kraftfullt, men det är inte samma sak som tillgång till mänsklig intention eller interna mentala tillstånd. I praktiken påverkas fotgängare av lokal kultur, gatuformgivning och social signalering; en AI som inte tar hänsyn till dessa lager kan göra tvärsäkra men felaktiga förutsägelser.

Säkerhet, integritet och beteendemässig återkoppling

Om ett fordon planerar utifrån vad det förväntar sig att du ska göra, kan mänskligt beteende förändras som svar – en punkt som ibland kallas för en beteendemässig återkopplingsloop. Människor som vet att bilar kommer att förutse dem kan ta större risker, eller omvänt bli mer vaksamma; båda dynamikerna kan förändra de statistiska samband som modellen förlitar sig på. Detta gör kontinuerlig validering i fält nödvändig.

Systemets beroende av visuella och kontextuella ledtrådar väcker också frågor om integritet och rättvisa. Modeller som tränats på filmmaterial från stadsmiljöer ärver ofta fördomar och blindfläckar från sina dataset: vem som spelades in, under vilka förhållanden och med vilka kameror. Brister i upptäckten av vissa hudtoner, klädtyper eller kroppsformer kan översättas till olika kvalitet i förutsägelserna för olika befolkningsgrupper. Ingenjörsteam måste därför prioritera mångfald i dataset, transparens kring modellens fellägen samt procedurer för att granska och motverka partiskt beteende.

Från multimodala LLM:er till hjärninspirerade arkitekturer

Parallellen är konceptuell snarare än bokstavlig. Nuvarande AI replikerar inte mänskligt medvetande eller mekanismerna bakom verklig intention. Men genom att hämta inspiration från neural organisering – hur nätverk dirigerar information och formar specialiserade moduler – kan ingenjörer designa system som bättre balanserar hastighet, robusthet och anpassningsförmåga på kaotiska stadsgator.

Vad som krävs före driftsättning

OmniPredict är en forskningsprototyp, inte en färdig stack för autonomi. Innan det kan tas i bruk i fordon krävs långsiktiga fältförsök, rigorös säkerhetsvalidering i extremfall (corner cases) och integrationstester som visar hur beteendeprognoser bör påverka rörelseplaneringen. Regulatorer och tillverkare måste också fastställa standarder för acceptabla nivåer av falska positiva och falska negativa resultat när ett system förutser mänskliga handlingar – avvägningar som har tydliga säkerhetskonsekvenser.

Slutligen understryker projektet en återkommande sanning inom tillämpad AI: noggrannhet i kurerade tester är nödvändig men inte tillräcklig. Verkliga system måste vara granskningsbara, rättvisa och robusta mot förändringar i datafördelning; de måste degradera mjukt vid osäkerhet. Utsikten att maskiner "förutser" mänsklig rörelse är lockande för säkerhet och flöde i stadstrafiken, men den för med sig tekniska, etiska och juridiska frågor som bör lösas innan bilar fattar oåterkalleliga beslut baserade på dessa förutsägelser.

Arbetet från Texas A&M och deras partners pekar mot en nära framtid där perception, kontext och beteendemässigt resonerande är oskiljaktiga komponenter i autonoma system. Den framtiden blir säkrare endast om den kombinerar det nya prediktiva lagret med konservativ säkerhetsdesign, noggranna tester och tydliga regler för transparens och ansvarsutkrävande.

Sources

  • Computers & Electrical Engineering (research paper on OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (research on neuromorphic networks)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Vad är OmniPredict och vad gör det?
A OmniPredict är ett multimodalt AI-system som använder en arkitektur baserad på stora språkmodeller för att sammanfoga visuella indata med kontextuella signaler och förutsäga en fotgängares sannolika nästa drag i realtid. Det tar emot vidvinkelbilder av scener, närbilder av fotgängare, koordinater för avgränsningsrutor (bounding boxes) samt fordonstelemetri, och genererar probabilistiska förutsägelser om handlingar som att korsa vägen, pausa i skymda områden eller ändra blickriktning.
Q Hur klassificerar OmniPredict fotgängares beteende?
A OmniPredict mappar sina multimodala indata till fyra beteendekategorier som är relevanta för körning: korsande, ocklusion, handlingar och blick. Det använder korsmodal uppmärksamhet (cross-modal attention) för att koppla samman en avlägsen kroppsorientering med en lokal gest, vilket möjliggör förutsägelser utan handkodade regler och låter modellen härleda kortsiktiga rörelser från kombinationen av kroppsställning, huvudriktning och kontext.
Q Hur väl presterar det i jämförelsetester (benchmarks) och vilka är förbehållen?
A I laboratorietester uppnådde OmniPredict cirka 67 % noggrannhet i förutsägelser på JAAD- och WiDEVIEW-tester, vilket är ungefär 10 procentenheter högre än nyligen använda referensvärden. Prestanda i benchmarktester översätts dock inte automatiskt till trafiksäkerhet; dessa datamängder har snävare scenariefördelningar, och verklig körning kan innebära sällsynta händelser och utmanande förhållanden som prövar modellen. Påståendet om generalisering bortom träningsdata lyfts fram av forskarna som en viktig huvudpunkt.
Q Vad behöver ske före driftsättning och vilka farhågor finns?
A Före driftsättning förblir OmniPredict en forskningsprototyp som kräver långvariga fälttester, rigorös säkerhetsvalidering under gränsfall (corner cases) och integrationstester som visar hur förutsägelser påverkar rörelseplanering. Arbetet efterlyser också standarder för acceptabla nivåer av falska positiva och falska negativa resultat, samt fortlöpande granskning gällande fördomar, integritet och risken för en beteendemässig återkopplingsloop där människor ändrar sitt agerande kring föregripande system.
Q Läser OmniPredict tankar eller har det tillgång till inre mentala tillstånd?
A Försöker OmniPredict läsa tankar? Forskarna betonar att systemet inte har tillgång till inre avsikter eller medvetande; det omvandlar visuella ledtrådar och kontextuella data till statistiska prognoser för kortsiktiga rörelser inlärda från tidigare data, vilka kan vara tvärsäkra men ändå felaktiga om situationen skiljer sig från träningsmönstren.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!