På stadsgator är det säkraste blixtsnabba beslutet ofta det som du aldrig behöver fatta. Denna vecka presenterade forskare vid Texas A&M och samarbetspartners i Korea OmniPredict, ett AI-system som gör mer än att bara upptäcka en person på vägen: det försöker härleda vad den personen kommer att göra härnäst. OmniPredict, som beskrivs i en expertgranskad artikel i Computers & Electrical Engineering, kombinerar scenbilder, närbilder, avgränsningsrutor (bounding boxes), fordonstelemetri och enkla beteendemässiga ledtrådar för att förutse en fotgängares sannolika handling i realtid.
En modell som förutser snarare än bara upptäcker
Traditionella systemstackar för autonoma fordon separerar perception från planering: kameror och lidar upptäcker objekt, varpå efterföljande moduler beslutar hur fordonet ska bromsa eller styra. OmniPredict ersätter den stela pipelinen med en arkitektur baserad på en multimodal stor språkmodell (MLLM) som sammanfogar visuella och kontextuella indata och producerar en probabilistisk förutsägelse om mänskligt beteende – oavsett om någon kommer att korsa vägen, stanna i ett skymt område, blicka mot fordonet eller utföra en annan handling. I laboratorietester rapporterar teamet en förutsägelseprecision på ungefär 67 % på etablerade riktmärken för fotgängarbeteende, en prestandaökning på cirka tio procentenheter jämfört med nyligen publicerade state-of-the-art-metoder.
Forskarna beskriver framsteget som ett skifte från reaktiv automation mot föregripande autonomi. "Städer är oförutsägbara. Fotgängare kan vara oförutsägbara", sade projektledaren och noterade att en bil som förutser ett sannolikt steg ut i vägen kan planera tidigare och smidigare, vilket potentiellt minskar antalet tillbud. Resultatet är inte ett mänskligt tankeläsande orakel, utan en statistisk motor som omvandlar visuella ledtrådar – kroppshållning, huvudriktning, ocklusion, fordonshastighet – till en kortsiktig prognos av rörelse.
Hur OmniPredict läser av omgivningen
Kärnan i tekniken är att OmniPredict använder en MLLM – den typ av arkitektur som i allt högre grad används för chatt- och bilduppgifter – anpassad för att tolka videoframes och strukturerade kontextuella signaler. Indata inkluderar en vidvinkelbild av scenen, inzoomade utsnitt av enskilda fotgängare, koordinater för avgränsningsrutor och enkla sensordata såsom fordonshastighet. Modellen bearbetar dessa multimodala strömmar tillsammans och mappar dem till fyra beteendekategorier som teamet fann användbara för körkontexter: korsande, ocklusion (skymning), handlingar och blick.
Två egenskaper är av betydelse. För det första tillåter MLLM-modellens korsmodala uppmärksamhet systemet att koppla en avlägsen kroppsorientering till en lokal gest – till exempel någon som vrider sin torso medan de tittar ner i en telefon – utan skräddarsydda, handkodade regler. För det andra verkar systemet kunna generalisera: forskarna körde OmniPredict på två utmanande offentliga dataset för fotgängarbeteende (JAAD och WiDEVIEW) utan skräddarsydd, datasetspecifik träning och såg fortfarande resultat som överträffade state-of-the-art. Denna generalisering är det viktigaste påståendet, och det är därför gruppen beskriver OmniPredict som ett "resonerande" lager som ligger ovanpå den rena perceptionen.
Riktmärken, begränsningar och verklighetsglappet
Riktmärken (benchmarks) berättar bara en del av historien. Den rapporterade noggrannheten på 67 % och en förbättring på 10 % jämfört med nyligen fastställda basnivåer är betydelsefulla i akademiska jämförelser, men de översätts inte automatiskt till trafiksäkerhet. Riktmärken innehåller många upprepade mönster och en snävare fördelning av scenarier än verklig stadskörning; sällsynta händelser, avvikande beteenden och ovanligt väder kullkastar ofta modellens antaganden när systemen lämnar laboratoriet.
Kritiker är snabba med att påpeka att språkbruk om att "läsa mänskliga tankar" riskerar att överskatta resultatet. Modellens förutsägelser härstammar från statistiska kopplingar som lärts in från tidigare data: liknande visuella kontexter i träningssetet ledde till liknande utfall. Det är kraftfullt, men det är inte samma sak som tillgång till mänsklig intention eller interna mentala tillstånd. I praktiken påverkas fotgängare av lokal kultur, gatuformgivning och social signalering; en AI som inte tar hänsyn till dessa lager kan göra tvärsäkra men felaktiga förutsägelser.
Säkerhet, integritet och beteendemässig återkoppling
Om ett fordon planerar utifrån vad det förväntar sig att du ska göra, kan mänskligt beteende förändras som svar – en punkt som ibland kallas för en beteendemässig återkopplingsloop. Människor som vet att bilar kommer att förutse dem kan ta större risker, eller omvänt bli mer vaksamma; båda dynamikerna kan förändra de statistiska samband som modellen förlitar sig på. Detta gör kontinuerlig validering i fält nödvändig.
Systemets beroende av visuella och kontextuella ledtrådar väcker också frågor om integritet och rättvisa. Modeller som tränats på filmmaterial från stadsmiljöer ärver ofta fördomar och blindfläckar från sina dataset: vem som spelades in, under vilka förhållanden och med vilka kameror. Brister i upptäckten av vissa hudtoner, klädtyper eller kroppsformer kan översättas till olika kvalitet i förutsägelserna för olika befolkningsgrupper. Ingenjörsteam måste därför prioritera mångfald i dataset, transparens kring modellens fellägen samt procedurer för att granska och motverka partiskt beteende.
Från multimodala LLM:er till hjärninspirerade arkitekturer
Parallellen är konceptuell snarare än bokstavlig. Nuvarande AI replikerar inte mänskligt medvetande eller mekanismerna bakom verklig intention. Men genom att hämta inspiration från neural organisering – hur nätverk dirigerar information och formar specialiserade moduler – kan ingenjörer designa system som bättre balanserar hastighet, robusthet och anpassningsförmåga på kaotiska stadsgator.
Vad som krävs före driftsättning
OmniPredict är en forskningsprototyp, inte en färdig stack för autonomi. Innan det kan tas i bruk i fordon krävs långsiktiga fältförsök, rigorös säkerhetsvalidering i extremfall (corner cases) och integrationstester som visar hur beteendeprognoser bör påverka rörelseplaneringen. Regulatorer och tillverkare måste också fastställa standarder för acceptabla nivåer av falska positiva och falska negativa resultat när ett system förutser mänskliga handlingar – avvägningar som har tydliga säkerhetskonsekvenser.
Slutligen understryker projektet en återkommande sanning inom tillämpad AI: noggrannhet i kurerade tester är nödvändig men inte tillräcklig. Verkliga system måste vara granskningsbara, rättvisa och robusta mot förändringar i datafördelning; de måste degradera mjukt vid osäkerhet. Utsikten att maskiner "förutser" mänsklig rörelse är lockande för säkerhet och flöde i stadstrafiken, men den för med sig tekniska, etiska och juridiska frågor som bör lösas innan bilar fattar oåterkalleliga beslut baserade på dessa förutsägelser.
Arbetet från Texas A&M och deras partners pekar mot en nära framtid där perception, kontext och beteendemässigt resonerande är oskiljaktiga komponenter i autonoma system. Den framtiden blir säkrare endast om den kombinerar det nya prediktiva lagret med konservativ säkerhetsdesign, noggranna tester och tydliga regler för transparens och ansvarsutkrävande.
Sources
- Computers & Electrical Engineering (research paper on OmniPredict)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (research on neuromorphic networks)
- McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Comments
No comments yet. Be the first!