L’IA anticipe les prochains mouvements des piétons

IA
AI Predicts Pedestrians’ Next Move
Une nouvelle IA multimodale nommée OmniPredict utilise un grand modèle de type GPT-4o pour anticiper les actions des piétons en temps réel, surpassant les systèmes de vision traditionnels sur les bancs d'essai standardisés. Les chercheurs estiment qu'elle pourrait transformer la planification des véhicules autonomes face aux humains, bien que l'affirmation selon laquelle le système « lirait dans les pensées » appelle à un examen approfondi.

Dans les rues des villes, la décision la plus sûre prise en une fraction de seconde est souvent celle que vous n'avez jamais à prendre. Cette semaine, des chercheurs de Texas A&M et des collaborateurs en Corée ont dévoilé OmniPredict, un système d'IA qui fait plus que repérer une personne sur la chaussée : il tente de déduire ce que cette personne fera ensuite. Décrit dans un article révisé par des pairs dans Computers & Electrical Engineering, OmniPredict fusionne des images de la scène, des vues rapprochées, des boîtes englobantes (bounding boxes), la télémétrie du véhicule et des indices comportementaux simples pour prévoir l'action probable d'un piéton en temps réel.

Un modèle qui anticipe, au lieu de simplement détecter

Les piles technologiques traditionnelles des véhicules autonomes séparent la perception de la planification : les caméras et le lidar détectent les objets, puis des modules en aval décident comment freiner ou diriger le véhicule. OmniPredict remplace ce pipeline rigide par une architecture de modèle de langage multimodal de grande taille (MLLM) qui fusionne les entrées visuelles et contextuelles pour produire une prédiction probabiliste du comportement humain — qu'une personne traverse, s'arrête dans une zone occultée, regarde vers le véhicule ou effectue une autre action. Lors de tests en laboratoire, l'équipe rapporte une précision de prédiction d'environ 67 % sur des références établies de comportement des piétons, soit un gain de performance d'environ dix points de pourcentage par rapport aux méthodes récentes de l'état de l'art.

Les chercheurs présentent cette avancée comme un passage de l'automatisation réactive vers l'autonomie anticipative. « Les villes sont imprévisibles. Les piétons peuvent être imprévisibles », a déclaré le responsable du projet, notant qu'une voiture qui anticipe un pas probable sur la chaussée peut planifier sa réaction plus tôt et de manière plus fluide, réduisant ainsi potentiellement les quasi-collisions. Le résultat n'est pas un oracle capable de lire dans les pensées humaines, mais un moteur statistique qui convertit des indices visuels — pose, direction de la tête, occlusion, vitesse du véhicule — en une prévision de mouvement à court terme.

Comment OmniPredict analyse la scène

Au cœur de la technique, OmniPredict utilise un MLLM — le type d'architecture de plus en plus utilisé pour les tâches de chat et d'image — adapté pour interpréter des images vidéo et des signaux contextuels structurés. Les entrées comprennent une image grand angle de la scène, des recadrages zoomés sur chaque piéton, des coordonnées de boîtes englobantes et des données de capteurs simples comme la vitesse du véhicule. Le modèle traite ces flux multimodaux ensemble et les associe à quatre catégories de comportement que l'équipe a jugées utiles pour les contextes de conduite : la traversée, l'occlusion, les actions et le regard.

Deux propriétés sont essentielles. Premièrement, l'attention transmodale du MLLM permet au modèle de lier une orientation corporelle lointaine à un geste local — par exemple, quelqu'un qui tourne le torse tout en regardant son téléphone — sans règles codées à la main. Deuxièmement, le système semble capable de généraliser : les chercheurs ont testé OmniPredict sur deux jeux de données publics complexes concernant le comportement des piétons (JAAD et WiDEVIEW) sans entraînement spécifique à ces jeux de données, et ont tout de même obtenu des résultats supérieurs à l'état de l'art. Cette généralisation est l'argument principal, et c'est pourquoi le groupe décrit OmniPredict comme une couche de « raisonnement » située au-dessus de la perception brute.

Benchmarks, limites et écart de réalisme

Les benchmarks ne racontent qu'une partie de l'histoire. La précision rapportée de 67 % et l'amélioration de 10 % par rapport aux références récentes sont significatives dans les comparaisons académiques, mais elles ne se traduisent pas automatiquement par une sécurité routière opérationnelle. Les benchmarks contiennent de nombreux motifs répétés et une distribution de scénarios plus étroite que la conduite urbaine réelle ; les événements rares, les comportements adverses et les conditions météorologiques inhabituelles submergent souvent les hypothèses des modèles lorsque les systèmes quittent le laboratoire.

Les critiques s'empressent de souligner que l'expression « lire dans les pensées humaines » risque de surestimer le résultat. Les prédictions du modèle découlent d'associations statistiques apprises à partir de données passées : des contextes visuels similaires dans l'ensemble d'entraînement ont conduit à des résultats similaires. C'est puissant, mais ce n'est pas la même chose qu'un accès à l'intention humaine ou aux états mentaux internes. En pratique, les piétons sont influencés par la culture locale, la conception des rues et la signalisation sociale ; une IA qui ne tient pas compte de ces couches peut faire des prédictions confiantes mais erronées.

Sécurité, vie privée et rétroaction comportementale

Si un véhicule planifie en fonction de ce qu'il attend de vous, le comportement humain peut changer en réponse — un point parfois appelé boucle de rétroaction comportementale. Les personnes qui savent que les voitures vont les anticiper pourraient prendre plus de risques, ou à l'inverse devenir plus méfiantes ; l'une ou l'autre de ces dynamiques peut modifier les relations statistiques dont dépend le modèle. Cela rend la validation continue sur le terrain essentielle.

La dépendance du système aux indices visuels et contextuels soulève également des questions de confidentialité et d'équité. Les modèles entraînés sur des séquences urbaines héritent souvent des biais et des angles morts de leurs jeux de données : qui a été enregistré, dans quelles conditions et avec quelles caméras. Des faiblesses dans la détection de certaines teintes de peau, types de vêtements ou formes corporelles pourraient se traduire par une qualité de prédiction différente selon les populations. Les équipes d'ingénierie doivent donc donner la priorité à la diversité des données, à la transparence sur les modes de défaillance des modèles et aux procédures d'audit et d'atténuation des comportements biaisés.

Des LLM multimodaux aux architectures inspirées du cerveau

Le parallèle est conceptuel plutôt que littéral. L'IA actuelle ne reproduit pas la conscience humaine ni les mécanismes de l'intention réelle. Mais s'inspirer de l'organisation neuronale — la façon dont les réseaux acheminent l'information et forment des modules spécialisés — peut aider les ingénieurs à concevoir des systèmes qui équilibrent mieux la vitesse, la robustesse et l'adaptabilité dans les rues chaotiques des villes.

Ce qui doit être fait avant le déploiement

OmniPredict est un prototype de recherche, pas une pile d'autonomie finie. Avant tout déploiement dans des véhicules, il nécessite des essais sur le terrain à long terme, une validation rigoureuse de la sécurité dans des cas limites (corner cases) et des tests d'intégration montrant comment les prédictions comportementales doivent influencer la planification du mouvement. Les régulateurs et les fabricants devront également décider des normes pour les taux acceptables de faux positifs et de faux négatifs lorsqu'un système prédit des actions humaines — des compromis qui comportent des implications évidentes en matière de sécurité.

Enfin, le projet souligne une vérité récurrente de l'IA appliquée : la précision sur des tests sélectionnés est nécessaire mais non suffisante. Les systèmes du monde réel doivent être auditables, équitables et robustes aux décalages de distribution ; ils doivent se dégrader gracieusement en cas d'incertitude. La perspective de machines qui « anticipent » le mouvement humain est séduisante pour la sécurité et la fluidité des transports urbains, mais elle apporte des questions techniques, éthiques et juridiques qui doivent être résolues avant que les voitures ne prennent des décisions irréversibles basées sur ces prédictions.

Les travaux de Texas A&M et de ses partenaires pointent vers un avenir proche dans lequel la perception, le contexte et le raisonnement comportemental seront des composants inséparables des systèmes autonomes. Cet avenir ne sera plus sûr que s'il combine cette nouvelle couche prédictive avec une conception de sécurité conservatrice, des tests minutieux et des règles claires de transparence et de responsabilité.

Sources

  • Computers & Electrical Engineering (article de recherche sur OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (recherche sur les réseaux neuromorphiques)
  • Université McGill / Le Neuro (Institut-Hôpital neurologique de Montréal)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Qu'est-ce qu'OmniPredict et que fait-il ?
A OmniPredict est un système d'IA multimodal qui utilise une architecture de grand modèle de langage pour fusionner des entrées visuelles avec des signaux contextuels afin de prévoir en temps réel le prochain mouvement probable d'un piéton. Il accepte des images de scènes à grand angle, des gros plans sur les piétons, des coordonnées de boîtes englobantes et la télémétrie du véhicule, et produit des prédictions probabilistes sur des actions telles que la traversée, l'arrêt dans des zones obstruées ou le changement de regard.
Q Comment OmniPredict classifie-t-il le comportement des piétons ?
A OmniPredict associe ses entrées multimodales à quatre catégories de comportement pertinentes pour la conduite : la traversée, l'occlusion, les actions et le regard. Il utilise l'attention cross-modale pour lier une orientation corporelle distante à un geste local, permettant des prédictions sans règles codées à la main et permettant au modèle d'inférer un mouvement à court terme à partir de la combinaison de la pose, de la direction de la tête et du contexte.
Q Quelles sont ses performances sur les bancs d'essai et quelles sont les réserves ?
A Lors de tests en laboratoire, OmniPredict a atteint une précision de prédiction d'environ 67 % sur les bancs d'essai JAAD et WiDEVIEW, soit environ 10 points de pourcentage de plus que les références récentes. Cependant, la performance sur les bancs d'essai ne se traduit pas automatiquement par une sécurité routière accrue ; ces ensembles de données présentent des distributions de scénarios plus restreintes, et la conduite en conditions réelles peut présenter des événements rares et des conditions adverses qui mettent le modèle à l'épreuve. La prétention à une généralisation au-delà des données d'entraînement est soulignée par les chercheurs comme un point clé.
Q Que doit-il se passer avant le déploiement et quelles sont les préoccupations existantes ?
A Avant le déploiement, OmniPredict reste un prototype de recherche nécessitant des essais sur le terrain à long terme, une validation de sécurité rigoureuse dans des cas limites et des tests d'intégration montrant comment les prédictions influencent la planification du mouvement. Ce travail appelle également à l'établissement de normes sur les taux acceptables de faux positifs et de faux négatifs, ainsi qu'à un audit continu des biais, de la vie privée et du risque d'une boucle de rétroaction comportementale où les personnes modifient leur façon d'agir face à des systèmes anticipatifs.
Q OmniPredict lit-il dans les pensées ou accède-t-il à des états mentaux internes ?
A OmniPredict tente-t-il de lire dans les pensées ? Les chercheurs soulignent que le système n'accède pas à l'intention interne ou à la conscience ; il transforme des indices visuels et des données contextuelles en prévisions statistiques de mouvements à court terme apprises à partir de données passées, lesquelles peuvent être assurées mais incorrectes si les situations diffèrent des schémas d'entraînement.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!