Na miejskich ulicach najbezpieczniejszą decyzją podejmowaną w ułamku sekundy jest często ta, której nigdy nie trzeba podejmować. W tym tygodniu naukowcy z Texas A&M oraz współpracownicy z Korei zaprezentowali OmniPredict – system AI, który robi coś więcej niż tylko dostrzeganie osoby na drodze: stara się on wywnioskować, co ta osoba zrobi w następnej kolejności. Opisany w recenzowanym artykule w czasopiśmie Computers & Electrical Engineering, OmniPredict łączy obrazy sceny, widoki z bliska, ramki otaczające (bounding boxes), telemetrię pojazdu i proste sygnały behawioralne, aby w czasie rzeczywistym prognozować prawdopodobne działania pieszego.
Model, który przewiduje, a nie tylko wykrywa
Tradycyjne systemy pojazdów autonomicznych oddzielają percepcję od planowania: kamery i lidar wykrywają obiekty, a następnie moduły niższego szczebla decydują o hamowaniu lub sterowaniu. OmniPredict zastępuje ten sztywny potok przetwarzania architekturą multimodalnego dużego modelu językowego (MLLM), która łączy dane wizualne i kontekstowe, tworząc probabilistyczną prognozę zachowania człowieka – niezależnie od tego, czy ktoś przejdzie przez jezdnię, zatrzyma się w zasłoniętym obszarze, spojrzy w stronę pojazdu, czy wykona inną czynność. W testach laboratoryjnych zespół odnotował około 67-procentową dokładność przewidywania w ustalonych benchmarkach zachowania pieszych, co stanowi wzrost wydajności o około dziesięć punktów procentowych w stosunku do ostatnich najnowocześniejszych metod.
Naukowcy postrzegają ten postęp jako przejście od reaktywnej automatyzacji w stronę antycypacyjnej autonomii. „Miasta są nieprzewidywalne. Piesi mogą być nieprzewidywalni” – zauważył lider projektu, zaznaczając, że samochód, który przewiduje prawdopodobne wejście na jezdnię, może planować manewry wcześniej i płynniej, potencjalnie redukując liczbę sytuacji kolizyjnych. Wynikiem nie jest wyrocznia czytająca w ludzkich myślach, lecz silnik statystyczny, który przetwarza wskazówki wizualne – pozę, kierunek głowy, przesłonięcia, prędkość pojazdu – w krótkoterminową prognozę ruchu.
Jak OmniPredict interpretuje scenę
U podstaw technicznych OmniPredict wykorzystuje MLLM – architekturę coraz częściej stosowaną w zadaniach związanych z czatem i obrazem – przystosowaną do interpretacji klatek wideo i ustrukturyzowanych sygnałów kontekstowych. Dane wejściowe obejmują szerokokątny obraz sceny, powiększone wycinki poszczególnych pieszych, współrzędne ramek otaczających oraz proste dane z czujników, takie jak prędkość pojazdu. Model przetwarza te multimodalne strumienie razem i mapuje je na cztery kategorie zachowań, które zespół uznał za przydatne w kontekście prowadzenia pojazdu: przejście przez jezdnię, przesłonięcie, działania i spojrzenie.
Istotne są dwie właściwości. Po pierwsze, funkcja cross-modal attention modelu MLLM pozwala mu powiązać ogólną orientację ciała z lokalnym gestem – na przykład kogoś obracającego tułów podczas patrzenia w dół na telefon – bez potrzeby stosowania ręcznie kodowanych reguł. Po drugie, system wydaje się wykazywać zdolność do generalizacji: naukowcy uruchomili OmniPredict na dwóch wymagających publicznych zbiorach danych dotyczących zachowania pieszych (JAAD i WiDEVIEW) bez specjalistycznego treningu pod konkretny zbiór i nadal uzyskiwali wyniki przewyższające dotychczasowe rozwiązania. Ta generalizacja jest kluczowym osiągnięciem i to właśnie dlatego grupa opisuje OmniPredict jako warstwę „rozumowania” znajdującą się powyżej surowej percepcji.
Benchmarki, ograniczenia i luka w realizmie
Benchmarki opowiadają tylko część historii. Raportowana 67-procentowa dokładność i 10-procentowa poprawa w stosunku do ostatnich punktów odniesienia są znaczące w porównaniach akademickich, ale nie przekładają się automatycznie na bezpieczeństwo w ruchu drogowym. Benchmarki zawierają wiele powtarzalnych wzorców i węższy zakres scenariuszy niż rzeczywista jazda miejska; rzadkie zdarzenia, zachowania antagonistyczne i nietypowa pogoda często niweczą założenia modelu, gdy systemy opuszczają laboratorium.
Krytycy szybko zauważają, że sformułowania o „czytaniu w ludzkich myślach” niosą ryzyko wyolbrzymienia wyników. Przewidywania modelu wynikają z powiązań statystycznych wyuczonych na podstawie danych historycznych: podobne konteksty wizualne w zbiorze treningowym prowadziły do podobnych wyników. To potężne narzędzie, ale nie jest tożsame z dostępem do ludzkich intencji czy wewnętrznych stanów psychicznych. W praktyce na pieszych wpływa lokalna kultura, projekt ulicy i sygnalizacja społeczna; AI, która nie uwzględnia tych warstw, może generować pewne siebie, ale błędne prognozy.
Bezpieczeństwo, prywatność i sprzężenie zwrotne zachowań
Jeśli pojazd planuje działania w oparciu o to, czego oczekuje od człowieka, zachowanie ludzi może zmienić się w odpowiedzi – co określa się czasem mianem behawioralnej pętli zwrotnej. Ludzie wiedzący, że samochody będą przewidywać ich ruchy, mogą podejmować większe ryzyko lub, przeciwnie, stać się bardziej ostrożni; każda z tych dynamik może zmienić relacje statystyczne, na których opiera się model. To sprawia, że ciągła walidacja w terenie jest niezbędna.
Poleganie systemu na wskazówkach wizualnych i kontekstowych rodzi również pytania o prywatność i sprawiedliwość społeczną. Modele trenowane na nagraniach miejskich często dziedziczą uprzedzenia i martwe pola swoich zbiorów danych: to, kto został nagrany, w jakich warunkach i jakimi kamerami. Słabości w wykrywaniu określonych odcieni skóry, rodzajów odzieży czy kształtów ciała mogą przekładać się na różną jakość przewidywań w różnych populacjach. Zespoły inżynieryjne muszą zatem priorytetowo traktować różnorodność zbiorów danych, przejrzystość w zakresie trybów awarii modeli oraz procedury audytu i łagodzenia stronniczych zachowań.
Od multimodalnych LLM do architektur inspirowanych mózgiem
Paralele te mają charakter bardziej koncepcyjny niż dosłowny. Obecna AI nie replikuje ludzkiej świadomości ani mechanizmów rzeczywistej intencji. Jednak czerpanie inspiracji z organizacji neuronalnej – sposobu, w jaki sieci przesyłają informacje i tworzą wyspecjalizowane moduły – może pomóc inżynierom w projektowaniu systemów, które lepiej równoważą szybkość, solidność i zdolność adaptacji na chaotycznych miejskich ulicach.
Co musi się stać przed wdrożeniem
OmniPredict to prototyp badawczy, a nie gotowy system autonomii. Przed wdrożeniem w pojazdach wymaga on długoterminowych prób terenowych, rygorystycznej walidacji bezpieczeństwa w sytuacjach granicznych (corner cases) oraz testów integracyjnych wykazujących, w jaki sposób przewidywania behawioralne powinny wpływać na planowanie ruchu. Regulatorzy i producenci będą musieli również ustalić standardy akceptowalnych wskaźników błędów typu "fałszywie pozytywny" i "fałszywie negatywny" w sytuacjach, gdy system przewiduje działania ludzkie – są to kompromisy niosące ze sobą wyraźne konsekwencje dla bezpieczeństwa.
Wreszcie, projekt podkreśla powracającą prawdę o stosowanej sztucznej inteligencji: dokładność w wyselekcjonowanych testach jest konieczna, ale niewystarczająca. Systemy świata rzeczywistego muszą być poddawane audytom, sprawiedliwe i odporne na zmiany w rozkładzie danych; muszą tracić sprawność w sposób kontrolowany w obliczu niepewności. Perspektywa maszyn, które „antycypują” ruch człowieka, jest atrakcyjna dla bezpieczeństwa i płynności transportu miejskiego, ale niesie ze sobą pytania techniczne, etyczne i prawne, które powinny zostać rozstrzygnięte, zanim samochody zaczną podejmować nieodwracalne decyzje na podstawie tych prognoz.
Prace Texas A&M i partnerów wskazują na bliską przyszłość, w której percepcja, kontekst i rozumowanie behawioralne są nierozerwalnymi elementami systemów autonomicznych. Ta przyszłość będzie bezpieczniejsza tylko wtedy, gdy połączy nową warstwę predykcyjną z konserwatywnym projektowaniem bezpieczeństwa, starannymi testami i jasnymi zasadami dotyczącymi przejrzystości oraz odpowiedzialności.
Źródła
- Computers & Electrical Engineering (praca badawcza o OmniPredict)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (badania nad sieciami neuromorficznymi)
- McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Comments
No comments yet. Be the first!