Dans les rues des villes, la décision la plus sûre prise en une fraction de seconde est souvent celle que vous n'avez jamais à prendre. Cette semaine, des chercheurs de Texas A&M et des collaborateurs en Corée ont dévoilé OmniPredict, un système d'IA qui fait plus que repérer une personne sur la chaussée : il tente de déduire ce que cette personne fera ensuite. Décrit dans un article révisé par des pairs dans Computers & Electrical Engineering, OmniPredict fusionne des images de la scène, des vues rapprochées, des boîtes englobantes (bounding boxes), la télémétrie du véhicule et des indices comportementaux simples pour prévoir l'action probable d'un piéton en temps réel.
Un modèle qui anticipe, au lieu de simplement détecter
Les piles technologiques traditionnelles des véhicules autonomes séparent la perception de la planification : les caméras et le lidar détectent les objets, puis des modules en aval décident comment freiner ou diriger le véhicule. OmniPredict remplace ce pipeline rigide par une architecture de modèle de langage multimodal de grande taille (MLLM) qui fusionne les entrées visuelles et contextuelles pour produire une prédiction probabiliste du comportement humain — qu'une personne traverse, s'arrête dans une zone occultée, regarde vers le véhicule ou effectue une autre action. Lors de tests en laboratoire, l'équipe rapporte une précision de prédiction d'environ 67 % sur des références établies de comportement des piétons, soit un gain de performance d'environ dix points de pourcentage par rapport aux méthodes récentes de l'état de l'art.
Les chercheurs présentent cette avancée comme un passage de l'automatisation réactive vers l'autonomie anticipative. « Les villes sont imprévisibles. Les piétons peuvent être imprévisibles », a déclaré le responsable du projet, notant qu'une voiture qui anticipe un pas probable sur la chaussée peut planifier sa réaction plus tôt et de manière plus fluide, réduisant ainsi potentiellement les quasi-collisions. Le résultat n'est pas un oracle capable de lire dans les pensées humaines, mais un moteur statistique qui convertit des indices visuels — pose, direction de la tête, occlusion, vitesse du véhicule — en une prévision de mouvement à court terme.
Comment OmniPredict analyse la scène
Au cœur de la technique, OmniPredict utilise un MLLM — le type d'architecture de plus en plus utilisé pour les tâches de chat et d'image — adapté pour interpréter des images vidéo et des signaux contextuels structurés. Les entrées comprennent une image grand angle de la scène, des recadrages zoomés sur chaque piéton, des coordonnées de boîtes englobantes et des données de capteurs simples comme la vitesse du véhicule. Le modèle traite ces flux multimodaux ensemble et les associe à quatre catégories de comportement que l'équipe a jugées utiles pour les contextes de conduite : la traversée, l'occlusion, les actions et le regard.
Deux propriétés sont essentielles. Premièrement, l'attention transmodale du MLLM permet au modèle de lier une orientation corporelle lointaine à un geste local — par exemple, quelqu'un qui tourne le torse tout en regardant son téléphone — sans règles codées à la main. Deuxièmement, le système semble capable de généraliser : les chercheurs ont testé OmniPredict sur deux jeux de données publics complexes concernant le comportement des piétons (JAAD et WiDEVIEW) sans entraînement spécifique à ces jeux de données, et ont tout de même obtenu des résultats supérieurs à l'état de l'art. Cette généralisation est l'argument principal, et c'est pourquoi le groupe décrit OmniPredict comme une couche de « raisonnement » située au-dessus de la perception brute.
Benchmarks, limites et écart de réalisme
Les benchmarks ne racontent qu'une partie de l'histoire. La précision rapportée de 67 % et l'amélioration de 10 % par rapport aux références récentes sont significatives dans les comparaisons académiques, mais elles ne se traduisent pas automatiquement par une sécurité routière opérationnelle. Les benchmarks contiennent de nombreux motifs répétés et une distribution de scénarios plus étroite que la conduite urbaine réelle ; les événements rares, les comportements adverses et les conditions météorologiques inhabituelles submergent souvent les hypothèses des modèles lorsque les systèmes quittent le laboratoire.
Les critiques s'empressent de souligner que l'expression « lire dans les pensées humaines » risque de surestimer le résultat. Les prédictions du modèle découlent d'associations statistiques apprises à partir de données passées : des contextes visuels similaires dans l'ensemble d'entraînement ont conduit à des résultats similaires. C'est puissant, mais ce n'est pas la même chose qu'un accès à l'intention humaine ou aux états mentaux internes. En pratique, les piétons sont influencés par la culture locale, la conception des rues et la signalisation sociale ; une IA qui ne tient pas compte de ces couches peut faire des prédictions confiantes mais erronées.
Sécurité, vie privée et rétroaction comportementale
Si un véhicule planifie en fonction de ce qu'il attend de vous, le comportement humain peut changer en réponse — un point parfois appelé boucle de rétroaction comportementale. Les personnes qui savent que les voitures vont les anticiper pourraient prendre plus de risques, ou à l'inverse devenir plus méfiantes ; l'une ou l'autre de ces dynamiques peut modifier les relations statistiques dont dépend le modèle. Cela rend la validation continue sur le terrain essentielle.
La dépendance du système aux indices visuels et contextuels soulève également des questions de confidentialité et d'équité. Les modèles entraînés sur des séquences urbaines héritent souvent des biais et des angles morts de leurs jeux de données : qui a été enregistré, dans quelles conditions et avec quelles caméras. Des faiblesses dans la détection de certaines teintes de peau, types de vêtements ou formes corporelles pourraient se traduire par une qualité de prédiction différente selon les populations. Les équipes d'ingénierie doivent donc donner la priorité à la diversité des données, à la transparence sur les modes de défaillance des modèles et aux procédures d'audit et d'atténuation des comportements biaisés.
Des LLM multimodaux aux architectures inspirées du cerveau
Le parallèle est conceptuel plutôt que littéral. L'IA actuelle ne reproduit pas la conscience humaine ni les mécanismes de l'intention réelle. Mais s'inspirer de l'organisation neuronale — la façon dont les réseaux acheminent l'information et forment des modules spécialisés — peut aider les ingénieurs à concevoir des systèmes qui équilibrent mieux la vitesse, la robustesse et l'adaptabilité dans les rues chaotiques des villes.
Ce qui doit être fait avant le déploiement
OmniPredict est un prototype de recherche, pas une pile d'autonomie finie. Avant tout déploiement dans des véhicules, il nécessite des essais sur le terrain à long terme, une validation rigoureuse de la sécurité dans des cas limites (corner cases) et des tests d'intégration montrant comment les prédictions comportementales doivent influencer la planification du mouvement. Les régulateurs et les fabricants devront également décider des normes pour les taux acceptables de faux positifs et de faux négatifs lorsqu'un système prédit des actions humaines — des compromis qui comportent des implications évidentes en matière de sécurité.
Enfin, le projet souligne une vérité récurrente de l'IA appliquée : la précision sur des tests sélectionnés est nécessaire mais non suffisante. Les systèmes du monde réel doivent être auditables, équitables et robustes aux décalages de distribution ; ils doivent se dégrader gracieusement en cas d'incertitude. La perspective de machines qui « anticipent » le mouvement humain est séduisante pour la sécurité et la fluidité des transports urbains, mais elle apporte des questions techniques, éthiques et juridiques qui doivent être résolues avant que les voitures ne prennent des décisions irréversibles basées sur ces prédictions.
Les travaux de Texas A&M et de ses partenaires pointent vers un avenir proche dans lequel la perception, le contexte et le raisonnement comportemental seront des composants inséparables des systèmes autonomes. Cet avenir ne sera plus sûr que s'il combine cette nouvelle couche prédictive avec une conception de sécurité conservatrice, des tests minutieux et des règles claires de transparence et de responsabilité.
Sources
- Computers & Electrical Engineering (article de recherche sur OmniPredict)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (recherche sur les réseaux neuromorphiques)
- Université McGill / Le Neuro (Institut-Hôpital neurologique de Montréal)
Comments
No comments yet. Be the first!