La IA predice el próximo movimiento de los peatones

IA
AI Predicts Pedestrians’ Next Move
Una nueva IA multimodal llamada OmniPredict utiliza un modelo de gran tamaño al estilo GPT-4o para anticipar las acciones de los peatones en tiempo real, superando a los sistemas de visión tradicionales en las pruebas de referencia estándar. Los investigadores afirman que esto podría cambiar la forma en que los vehículos autónomos —y otras máquinas— planifican sus trayectorias en torno a los humanos, pero la afirmación de que el sistema está "leyendo la mente" exige un escrutinio cuidadoso.

En las calles de la ciudad, la decisión más segura tomada en una fracción de segundo suele ser la que nunca se tiene que tomar. Esta semana, investigadores de Texas A&M y colaboradores en Corea presentaron OmniPredict, un sistema de IA que hace algo más que detectar a una persona en la carretera: intenta inferir qué hará esa persona a continuación. Descrito en un artículo revisado por pares en Computers & Electrical Engineering, OmniPredict combina imágenes de la escena, vistas de primer plano, cuadros delimitadores (bounding boxes), telemetría del vehículo y señales de comportamiento simples para pronosticar la acción probable de un peatón en tiempo real.

Un modelo que anticipa, no solo detecta

Las pilas tecnológicas tradicionales de los vehículos autónomos separan la percepción de la planificación: las cámaras y el lidar detectan objetos, y luego los módulos posteriores deciden cómo frenar o maniobrar. OmniPredict sustituye ese proceso rígido por una arquitectura de modelo de lenguaje de gran tamaño multimodal (MLLM) que fusiona entradas visuales y contextuales y produce una predicción probabilística sobre el comportamiento humano: si alguien cruzará, se detendrá en un área ocluida, mirará hacia el vehículo o realizará otra acción. En pruebas de laboratorio, el equipo informa de una precisión de predicción de aproximadamente el 67% en los benchmarks establecidos de comportamiento de peatones, una ganancia de rendimiento de unos diez puntos porcentuales frente a los métodos recientes más avanzados.

Los investigadores enmarcan el avance como un cambio de la automatización reactiva hacia la autonomía anticipatoria. "Las ciudades son impredecibles. Los peatones pueden ser impredecibles", señaló el líder del proyecto, destacando que un coche que anticipa un paso probable hacia la calzada puede planificar antes y de forma más fluida, reduciendo potencialmente los incidentes por poco margen. El resultado no es un oráculo que lee la mente humana, sino un motor estadístico que convierte señales visuales (pose, dirección de la cabeza, oclusión, velocidad del vehículo) en un pronóstico de movimiento a corto plazo.

Cómo lee la escena OmniPredict

En su núcleo técnico, OmniPredict utiliza un MLLM —el tipo de arquitectura que se utiliza cada vez más para tareas de chat e imagen— adaptado para interpretar fotogramas de vídeo y señales contextuales estructuradas. Las entradas incluyen una imagen de la escena en gran angular, recortes ampliados de peatones individuales, coordenadas de cuadros delimitadores y datos de sensores sencillos como la velocidad del vehículo. El modelo procesa estos flujos multimodales conjuntamente y los asigna a cuatro categorías de comportamiento que el equipo consideró útiles para los contextos de conducción: cruce, oclusión, acciones y mirada.

Dos propiedades son fundamentales. En primer lugar, la atención transmodal del MLLM permite al modelo vincular una orientación corporal distante con un gesto local —por ejemplo, alguien que gira el torso mientras mira hacia abajo a un teléfono— sin reglas personalizadas codificadas a mano. En segundo lugar, el sistema parece generalizar: los investigadores ejecutaron OmniPredict en dos conjuntos de datos públicos complejos para el comportamiento de los peatones (JAAD y WiDEVIEW) sin un entrenamiento específico para cada conjunto y aun así obtuvieron resultados superiores a los del estado del arte actual. Esa generalización es la afirmación principal, y es por lo que el grupo describe a OmniPredict como una capa de "razonamiento" situada por encima de la percepción bruta.

Benchmarks, límites y la brecha de realismo

Los benchmarks cuentan una parte de la historia. La precisión del 67% reportada y la mejora del 10% sobre las líneas de base recientes son significativas en comparaciones académicas, pero no se traducen automáticamente en una seguridad apta para la circulación. Los benchmarks contienen muchos patrones repetidos y una distribución de escenarios más estrecha que la conducción urbana en vivo; los eventos raros, el comportamiento adversarial y el clima inusual a menudo desbordan las suposiciones del modelo cuando los sistemas salen del laboratorio.

Los críticos se apresuran a señalar que el lenguaje de "leer mentes humanas" corre el riesgo de exagerar el resultado. Las predicciones del modelo se derivan de asociaciones estadísticas aprendidas de datos pasados: contextos visuales similares en el conjunto de entrenamiento llevaron a resultados similares. Eso es potente, pero no es lo mismo que tener acceso a la intención humana o a los estados mentales internos. En la práctica, los peatones están influenciados por la cultura local, el diseño de las calles y la señalización social; una IA que no tenga en cuenta esas capas puede hacer predicciones seguras pero erróneas.

Seguridad, privacidad y retroalimentación conductual

Si un vehículo planifica en función de lo que espera que usted haga, el comportamiento humano puede cambiar como respuesta, un punto que a veces se denomina bucle de retroalimentación conductual. Las personas que saben que los coches se anticiparán a ellas podrían correr más riesgos o, por el contrario, volverse más cautelosas; cualquiera de las dos dinámicas puede cambiar las relaciones estadísticas de las que depende el modelo. Eso hace que la validación continua en el campo sea esencial.

La dependencia del sistema de señales visuales y contextuales también plantea cuestiones de privacidad y equidad. Los modelos entrenados con imágenes urbanas a menudo heredan los sesgos y puntos ciegos de sus conjuntos de datos: quién fue grabado, bajo qué condiciones y con qué cámaras. Las debilidades en la detección de ciertos tonos de piel, tipos de ropa o formas corporales podrían traducirse en una calidad de predicción diferente entre las poblaciones. Por lo tanto, los equipos de ingeniería deben priorizar la diversidad de los conjuntos de datos, la transparencia sobre los modos de fallo del modelo y los procedimientos para auditar y mitigar el comportamiento sesgado.

De los LLM multimodales a las arquitecturas inspiradas en el cerebro

El paralelismo es conceptual más que literal. La IA actual no replica la conciencia humana ni los mecanismos de la intención real. Pero inspirarse en la organización neuronal —cómo las redes canalizan la información y forman módulos especializados— puede ayudar a los ingenieros a diseñar sistemas que equilibren mejor la velocidad, la robustez y la adaptabilidad en las caóticas calles de la ciudad.

Qué debe ocurrir antes del despliegue

OmniPredict es un prototipo de investigación, no una pila de autonomía terminada. Antes de su despliegue en vehículos, necesita ensayos de campo a largo plazo, una validación de seguridad rigurosa en casos límite y pruebas de integración que demuestren cómo las predicciones de comportamiento deben influir en la planificación del movimiento. Los reguladores y fabricantes también tendrán que decidir los estándares para las tasas aceptables de falsos positivos y falsos negativos cuando un sistema predice acciones humanas, compensaciones que conllevan claras implicaciones de seguridad.

Finalmente, el proyecto subraya una verdad recurrente de la IA aplicada: la precisión en pruebas seleccionadas es necesaria pero no suficiente. Los sistemas del mundo real deben ser auditables, justos y robustos ante los cambios de distribución; deben degradarse de manera controlada cuando existe incertidumbre. La perspectiva de máquinas que "anticipan" el movimiento humano es atractiva para la seguridad y la fluidez en el transporte urbano, pero plantea interrogantes técnicos, éticos y legales que deberían resolverse antes de que los coches toen decisiones irreversibles basadas en esas predicciones.

El trabajo de Texas A&M y sus socios apunta a un futuro cercano en el que la percepción, el contexto y el razonamiento conductual sean componentes inseparables de los sistemas autónomos. Ese futuro solo será más seguro si combina la nueva capa predictiva con un diseño de seguridad conservador, pruebas cuidadosas y reglas claras de transparencia y responsabilidad.

Fuentes

  • Computers & Electrical Engineering (artículo de investigación sobre OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (investigación sobre redes neuromórficas)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q ¿Qué es OmniPredict y qué hace?
A OmniPredict es un sistema de IA multimodal que utiliza una arquitectura de modelo de lenguaje extenso para fusionar entradas visuales con señales contextuales y pronosticar el probable próximo movimiento de un peatón en tiempo real. Admite imágenes de escenas de gran angular, recortes de primer plano de peatones, coordenadas de cuadros delimitadores y telemetría de vehículos, y genera predicciones probabilísticas sobre acciones como cruzar, detenerse en áreas ocultas o cambiar la mirada.
Q ¿Cómo clasifica OmniPredict el comportamiento de los peatones?
A OmniPredict mapea sus entradas multimodales en cuatro categorías de comportamiento relevantes para la conducción: cruce, oclusión, acciones y mirada. Utiliza atención cruzada para vincular una orientación corporal distante con un gesto local, lo que permite realizar predicciones sin reglas codificadas a mano y permite al modelo inferir movimientos a corto plazo a partir de la combinación de la postura, la dirección de la cabeza y el contexto.
Q ¿Qué tan bien funciona en las pruebas de rendimiento (benchmarks) y cuáles son las advertencias?
A En pruebas de laboratorio, OmniPredict logró una precisión de predicción de aproximadamente el 67% en los benchmarks JAAD y WiDEVIEW, unos 10 puntos porcentuales por encima de las líneas de base recientes. Sin embargo, el rendimiento en los benchmarks no se traduce automáticamente en seguridad vial; estos conjuntos de datos tienen distribuciones de escenarios más limitadas, y la conducción en el mundo real puede presentar eventos raros y condiciones adversas que desafíen al modelo. Los investigadores destacan como titular clave la afirmación de generalización más allá de los datos de entrenamiento.
Q ¿Qué debe ocurrir antes del despliegue y qué preocupaciones existen?
A Antes de su despliegue, OmniPredict sigue siendo un prototipo de investigación que requiere ensayos de campo a largo plazo, una validación de seguridad rigurosa en casos extremos y pruebas de integración que muestren cómo las predicciones influyen en la planificación del movimiento. El trabajo también hace un llamado a establecer estándares sobre tasas aceptables de falsos positivos y falsos negativos, además de auditorías continuas sobre sesgos, privacidad y el potencial de un bucle de retroalimentación conductual donde las personas cambien su forma de actuar ante sistemas anticipatorios.
Q ¿OmniPredict lee la mente o accede a estados mentales internos?
A ¿Está OmniPredict intentando leer la mente? Los investigadores enfatizan que el sistema no está accediendo a la intención interna ni a la conciencia; transforma señales visuales y datos contextuales en pronósticos estadísticos de movimientos a corto plazo aprendidos de datos pasados, los cuales pueden ser seguros pero incorrectos si las situaciones difieren de los patrones de entrenamiento.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!