L'IA prevede la prossima mossa dei pedoni

IA
AI Predicts Pedestrians’ Next Move
Una nuova IA multimodale chiamata OmniPredict utilizza un modello di grandi dimensioni in stile GPT-4o per anticipare le azioni dei pedoni in tempo reale, superando i tradizionali sistemi di visione nei benchmark di settore. I ricercatori affermano che potrebbe rivoluzionare il modo in cui i veicoli autonomi pianificano i movimenti in presenza di esseri umani, ma l'ipotesi che il sistema riesca a "leggere nel pensiero" richiede un attento esame.

Sulle strade cittadine, la decisione più sicura presa in una frazione di secondo è spesso quella che non si deve mai prendere. Questa settimana, i ricercatori della Texas A&M e i collaboratori in Corea hanno presentato OmniPredict, un sistema di IA che fa molto più che individuare una persona sulla strada: cerca di inferire cosa farà quella persona subito dopo. Descritto in un articolo sottoposto a revisione paritaria su Computers & Electrical Engineering, OmniPredict combina immagini della scena, viste ravvicinate, bounding box, telemetria del veicolo e semplici segnali comportamentali per prevedere l'azione probabile di un pedone in tempo reale.

Un modello che anticipa, non solo rileva

Gli stack tradizionali dei veicoli autonomi separano la percezione dalla pianificazione: telecamere e lidar rilevano gli oggetti, poi i moduli a valle decidono come frenare o sterzare. OmniPredict sostituisce quella pipeline rigida con un'architettura di modello linguistico di grandi dimensioni multimodale (MLLM) che fonde input visivi e contestuali e produce una previsione probabilistica sul comportamento umano: se qualcuno attraverserà, si fermerà in un'area occultata, volgerà lo sguardo verso il veicolo o compirà un'altra azione. Nei test di laboratorio, il team riporta un'accuratezza di previsione di circa il 67% sui benchmark stabiliti per il comportamento dei pedoni, un guadagno prestazionale di circa dieci punti percentuali rispetto ai recenti metodi allo stato dell'arte.

I ricercatori inquadrano il progresso come un passaggio dall'automazione reattiva verso l'autonomia anticipatoria. "Le città sono imprevedibili. I pedoni possono essere imprevedibili", ha osservato il responsabile del progetto, sottolineando che un'auto che anticipa un probabile passo sulla strada può pianificare prima e in modo più fluido, riducendo potenzialmente i quasi-incidenti. Il risultato non è un oracolo in grado di leggere il pensiero umano, ma un motore statistico che converte i segnali visivi — posa, direzione della testa, occlusione, velocità del veicolo — in una previsione di movimento a breve termine.

Come OmniPredict legge la scena

Al cuore tecnico, OmniPredict utilizza un MLLM — il tipo di architettura sempre più utilizzata per compiti di chat e immagini — adattato per interpretare i fotogrammi video e i segnali contestuali strutturati. Gli input includono un'immagine della scena a grandangolo, ritagli ingranditi dei singoli pedoni, coordinate dei bounding box e semplici dati sensoriali come la velocità del veicolo. Il modello elabora questi flussi multimodali insieme e li mappa su quattro categorie di comportamento che il team ha ritenuto utili per i contesti di guida: attraversamento, occlusione, azioni e sguardo.

Due proprietà sono fondamentali. In primo luogo, l'attenzione cross-modale dell'MLLM consente al modello di collegare l'orientamento di un corpo distante a un gesto locale — ad esempio, qualcuno che ruota il busto mentre guarda in basso verso un telefono — senza regole codificate manualmente su misura. In secondo luogo, il sistema sembra generalizzare: i ricercatori hanno eseguito OmniPredict su due dataset pubblici complessi per il comportamento dei pedoni (JAAD e WiDEVIEW) senza un addestramento specifico per il dataset e hanno comunque riscontrato risultati superiori allo stato dell'arte. Questa generalizzazione è l'affermazione principale, ed è per questo che il gruppo descrive OmniPredict come uno strato di "ragionamento" situato sopra la percezione grezza.

Benchmark, limiti e il divario con la realtà

I benchmark raccontano una parte della storia. L'accuratezza riportata del 67% e un miglioramento del 10% rispetto alle linee di base recenti sono significativi nei confronti accademici, ma non si traducono automaticamente in sicurezza su strada. I benchmark contengono molti schemi ripetuti e una distribuzione di scenari più ristretta rispetto alla guida in città reale; eventi rari, comportamenti avversari e condizioni meteorologiche insolite spesso travolgono le assunzioni del modello quando i sistemi lasciano il laboratorio.

I critici sono pronti a sottolineare che il linguaggio sulla "lettura della mente umana" rischia di sopravvalutare il risultato. Le previsioni del modello derivano da associazioni statistiche apprese da dati passati: contesti visivi simili nel set di addestramento hanno portato a risultati simili. Questo è potente, ma non equivale all'accesso all'intenzionalità umana o agli stati mentali interni. In pratica, i pedoni sono influenzati dalla cultura locale, dal design stradale e dalla segnaletica sociale; un'IA che non tiene conto di questi livelli può fornire previsioni sicure ma errate.

Sicurezza, privacy e feedback comportamentale

Se un veicolo pianifica in base a ciò che si aspetta che tu faccia, il comportamento umano potrebbe cambiare in risposta — un punto a volte chiamato ciclo di feedback comportamentale. Le persone che sanno che le auto le anticiperanno potrebbero correre più rischi o, al contrario, diventare più guardinghe; entrambe le dinamiche possono alterare le relazioni statistiche da cui dipende il modello. Ciò rende essenziale una validazione continua sul campo.

L'affidamento del sistema a segnali visivi e contestuali solleva anche questioni di privacy ed equità. I modelli addestrati su riprese urbane spesso ereditano i pregiudizi e i punti ciechi dei loro dataset: chi è stato registrato, in quali condizioni e con quali telecamere. Le debolezze nel rilevamento per determinate tonalità della pelle, tipi di abbigliamento o forme del corpo potrebbero tradursi in una diversa qualità di previsione tra le popolazioni. I team di ingegneria devono quindi dare priorità alla diversità dei dataset, alla trasparenza sulle modalità di fallimento del modello e alle procedure per verificare e mitigare i comportamenti distorti.

Dagli LLM multimodali alle architetture ispirate al cervello

Il parallelo è concettuale piuttosto che letterale. L'IA attuale non replica la coscienza umana o i meccanismi della reale intenzione. Tuttavia, trarre ispirazione dall'organizzazione neurale — come le reti instradano le informazioni e formano moduli specializzati — può aiutare gli ingegneri a progettare sistemi che bilancino meglio velocità, robustezza e adattabilità sulle caotiche strade cittadine.

Cosa deve succedere prima della distribuzione

OmniPredict è un prototipo di ricerca, non uno stack di autonomia finito. Prima della distribuzione nei veicoli, necessita di prove sul campo a lungo termine, di una rigorosa validazione della sicurezza in casi limite e di test di integrazione che mostrino come le previsioni comportamentali dovrebbero influenzare la pianificazione del movimento. Anche i regolatori e i produttori dovranno decidere gli standard per i tassi accettabili di falsi positivi e falsi negativi quando un sistema prevede le azioni umane — compromessi che comportano chiare implicazioni per la sicurezza.

Infine, il progetto sottolinea una verità ricorrente dell'IA applicata: l'accuratezza su test curati è necessaria ma non sufficiente. I sistemi del mondo reale devono essere verificabili, equi e robusti ai cambiamenti di distribuzione; devono degradare gradualmente in caso di incertezza. La prospettiva di macchine che "anticipano" il movimento umano è attraente per la sicurezza e la fluidità del trasporto urbano, ma porta con sé questioni tecniche, etiche e legali che dovrebbero essere risolte prima che le auto prendano decisioni irreversibili basate su tali previsioni.

Il lavoro della Texas A&M e dei partner indica un prossimo futuro in cui la percezione, il contesto e il ragionamento comportamentale saranno componenti inseparabili dei sistemi autonomi. Quel futuro sarà più sicuro solo se combinerà il nuovo strato predittivo con una progettazione della sicurezza conservativa, test accurati e regole chiare per la trasparenza e la responsabilità.

Fonti

  • Computers & Electrical Engineering (articolo di ricerca su OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (ricerca sulle reti neuromorfiche)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Cos'è OmniPredict e cosa fa?
A OmniPredict è un sistema di IA multimodale che utilizza l'architettura di un modello linguistico di grandi dimensioni per fondere input visivi e segnali contestuali, prevedendo in tempo reale la probabile mossa successiva di un pedone. Accetta immagini di scene a grandangolo, ritagli ravvicinati dei pedoni, coordinate dei rettangoli di delimitazione (bounding-box) e telemetria del veicolo, fornendo in output previsioni probabilistiche su azioni come l'attraversamento, la sosta in aree occluse o lo spostamento dello sguardo.
Q In che modo OmniPredict classifica il comportamento dei pedoni?
A OmniPredict mappa i suoi input multimodali in quattro categorie comportamentali rilevanti per la guida: attraversamento, occlusione, azioni e sguardo. Utilizza l'attenzione cross-modale per collegare l'orientamento del corpo a distanza con un gesto locale, consentendo previsioni senza regole codificate manualmente e permettendo al modello di inferire i movimenti a breve termine dalla combinazione di posa, direzione della testa e contesto.
Q Quali sono le sue prestazioni nei benchmark e quali sono le avvertenze?
A Nei test di laboratorio, OmniPredict ha ottenuto un'accuratezza predittiva di circa il 67% sui benchmark JAAD e WiDEVIEW, circa 10 punti percentuali in più rispetto ai recenti valori di riferimento. Tuttavia, le prestazioni nei benchmark non si traducono automaticamente in sicurezza stradale; questi set di dati hanno distribuzioni di scenari più limitate e la guida nel mondo reale può presentare eventi rari e condizioni avverse che mettono alla prova il modello. La capacità di generalizzazione oltre i dati di addestramento è evidenziata dai ricercatori come un risultato fondamentale.
Q Cosa deve accadere prima dell'implementazione e quali preoccupazioni esistono?
A Prima dell'implementazione, OmniPredict rimane un prototipo di ricerca che richiede prove sul campo a lungo termine, una rigorosa validazione della sicurezza in casi limite (corner cases) e test di integrazione che mostrino come le previsioni influenzino la pianificazione del movimento. Il lavoro richiede inoltre standard sui tassi accettabili di falsi positivi e falsi negativi, oltre a un controllo continuo su pregiudizi, privacy e il potenziale rischio di un ciclo di feedback comportamentale in cui le persone cambiano il proprio modo di agire in presenza di sistemi predittivi.
Q OmniPredict legge nel pensiero o accede agli stati mentali interni?
A OmniPredict sta cercando di leggere nel pensiero? I ricercatori sottolineano che il sistema non accede all'intento interno o alla coscienza; trasforma segnali visivi e dati contestuali in previsioni statistiche di movimento a breve termine apprese dai dati passati, che possono essere sicure ma errate se le situazioni differiscono dai modelli di addestramento.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!