Helios 14B : Génération de vidéos longue durée en temps réel

Breaking News Technologie
Close-up of a computer chip emitting glowing holographic film strips, symbolizing rapid AI video creation.
4K Quality
Des chercheurs ont dévoilé Helios, un modèle de génération vidéo de 14 milliards de paramètres atteignant un record de 19,5 images par seconde sur un seul GPU NVIDIA H100. En éliminant les goulots d'étranglement informatiques courants et en résolvant la dérive temporelle, Helios produit des vidéos de haute qualité de l'ordre de la minute sans nécessiter de techniques d'accélération complexes ou de clusters matériels massifs.

Le modèle de génération vidéo Helios est un système de diffusion autorégressif révolutionnaire de 14B paramètres conçu pour la synthèse vidéo longue durée en temps réel, atteignant un record de 19,5 images par seconde (FPS) sur un seul GPU NVIDIA H100. En facilitant une fusion sophistiquée entre l'inférence à haute vitesse et la robustesse architecturale, Helios prend en charge la génération de vidéos à l'échelle de la minute tout en gérant nativement les tâches de texte-vers-vidéo (T2V), d'image-vers-vidéo (I2V) et de vidéo-vers-vidéo (V2V). Ce modèle représente un bond significatif dans l'IA générative, égalant la qualité des références leaders de l'industrie sans la lourde charge de calcul généralement requise pour la cohérence temporelle en haute résolution.

Qu'est-ce que le modèle de génération vidéo Helios ?

Helios est un modèle de diffusion autorégressif de 14B spécifiquement conçu pour la génération de vidéos longue durée en temps réel, capable de produire du contenu de haute qualité à 19,5 FPS sur du matériel autonome. Développé par les chercheurs Shenghai Yuan, Li Yuan et Zongjian Li, le modèle utilise une représentation d'entrée unifiée pour rationaliser les flux de travail créatifs multimodaux. Contrairement aux modèles traditionnels qui nécessitent un parallélisme massif, Helios est optimisé pour s'exécuter efficacement sur un seul NVIDIA H100, ce qui en fait un outil hautement accessible tant pour les chercheurs que pour les créateurs.

Le développement d'Helios a été motivé par la nécessité de surmonter le « mur de l'efficacité » dans la génération vidéo. Les modèles vidéo modernes nécessitent souvent des dizaines de GPU pour générer seulement quelques secondes de séquences. Helios rompt cette tendance en mettant en œuvre des optimisations au niveau de l'infrastructure qui réduisent la consommation de mémoire et accélèrent l'entraînement. Le modèle est si économe en mémoire que jusqu'à quatre modèles 14B peuvent tenir dans les 80 Go de mémoire fournis par un seul GPU H100, un exploit auparavant jugé impossible pour des modèles de cette envergure.

Helios peut-il générer des vidéos à l'échelle de la minute grâce à une fusion de logique temporelle ?

Oui, Helios est explicitement conçu pour la génération de vidéos à l'échelle de la minute, employant une approche autorégressive qui traite la vidéo par segments de 33 images pour maintenir la cohérence temporelle. Cette fusion du contexte à longue portée et d'un découpage efficace permet au modèle de produire des séquences étendues qui ne souffrent pas de la dégradation rapide de la qualité commune aux modèles génératifs antérieurs. En traitant la vidéo comme une séquence continue d'événements probabilistes, Helios peut prolonger les scènes naturellement sur plusieurs minutes de lecture.

Pour atteindre cette durée prolongée, les chercheurs se sont éloignés de l'échantillonnage traditionnel par images clés. Au lieu de cela, Helios traite le processus de génération comme un flux continu, garantissant que chaque image est informée par une représentation compressée du contexte historique précédent. Cette méthodologie permet au modèle de maintenir l'arc narratif et la cohérence physique d'une scène, qu'il s'agisse d'un simple mouvement de personnage ou d'une transition environnementale complexe, égalant efficacement la qualité des références industrielles solides tant sur les formats courts que longs.

Comment Helios évite-t-il la dérive sur les vidéos longues sans cache KV ?

Helios évite la dérive sur les vidéos longues en utilisant des stratégies d'entraînement innovantes qui simulent des modes de défaillance pendant la phase d'apprentissage, éliminant ainsi le besoin de cache KV ou de quantification. En apprenant explicitement au modèle à reconnaître et à corriger les mouvements répétitifs et les erreurs de « dérive » à leur source, les chercheurs ont supprimé le besoin d'heuristiques courantes comme l'auto-forçage ou les banques d'erreurs. Il en résulte un processus de diffusion autorégressif plus robuste qui reste stable même pendant une inférence à haute vitesse en temps réel.

L'efficacité était un objectif primordial dans la méthodologie d'Helios. L'équipe de recherche a fortement compressé le contexte historique et bruité utilisé pendant les étapes d'échantillonnage. En réduisant le nombre d'itérations d'échantillonnage nécessaires, ils ont atteint des coûts de calcul comparables — voire inférieurs — à ceux des modèles génératifs de seulement 1,3B paramètres. Cette efficacité garantit que le modèle peut maintenir des sorties de haute fidélité sans les techniques d'accélération standard qui sacrifient souvent les détails visuels pour la vitesse de traitement.

Le modèle Helios prend-il en charge une fusion de tâches multimodales ?

L'architecture Helios prend en charge nativement une fusion des tâches T2V, I2V et V2V à l'aide d'une représentation d'entrée unifiée qui simplifie le processus génératif à travers différents types de médias. Cette flexibilité permet aux utilisateurs de basculer entre la génération de vidéo à partir d'invites textuelles, l'animation d'images statiques ou la transformation de séquences vidéo existantes au sein d'un cadre unique. En unifiant ces représentations, Helios élimine le besoin de sous-modèles spécifiques aux tâches, réduisant ainsi la complexité globale du pipeline de déploiement.

Les nombreuses expériences menées par les auteurs démontrent que cette approche unifiée ne compromet pas la qualité. Lors des tests de référence, Helios a systématiquement surpassé les méthodes de pointe précédentes tant pour les clips de courte durée que pour les séquences cinématographiques de longue durée. La capacité à gérer les tâches d'image-vers-vidéo (I2V) avec la même efficacité que les invites textuelles en fait un atout polyvalent pour le domaine de la cinématographie par IA, où le maintien de l'identité visuelle d'une image de référence est crucial pour une production professionnelle.

Comment Helios se compare-t-il à Sora 2 ou Veo 3.1 ?

Bien que les comparaisons empiriques directes avec des modèles propriétaires comme Sora ou Veo soient limitées par leur disponibilité, Helios égale la qualité des références open-source solides tout en étant nettement plus rapide sur un seul GPU H100. Helios atteint un débit de bout en bout de 19,5 FPS, alors que de nombreux modèles comparables de 14B paramètres nécessitent des clusters multi-nœuds pour atteindre ne serait-ce qu'une fraction de cette vitesse. Cela fait d'Helios un choix supérieur pour les applications en temps réel où la latence est la contrainte principale.

L'importance d'Helios réside dans son accessibilité matérielle. Alors que des modèles comme Sora sont hébergés derrière d'imposants murs de serveurs, l'équipe d'Helios prévoit de publier le modèle de base, le code et le modèle distillé pour la communauté. Cette approche open-source permet de nouveaux développements dans le domaine de la vidéo générative, démocratisant potentiellement la création de contenu de haute qualité et de longue durée qui était auparavant le domaine exclusif des laboratoires industriels bien financés.

En regardant vers l'avenir, les implications pour la cinématographie par IA en temps réel et le jeu vidéo sont profondes. Comme Helios prouve que des modèles à haut nombre de paramètres peuvent fonctionner en temps réel sans quantification extrême ou cadres de parallélisme, nous pouvons nous attendre à une nouvelle vague de médias interactifs. Les itérations futures pourraient voir des réductions encore plus importantes des étapes d'échantillonnage, apportant potentiellement la génération de vidéos haute définition à l'échelle de la minute sur du matériel grand public, changeant fondamentalement la façon dont nous produisons et consommons le contenu visuel numérique.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Qu'est-ce que le modèle de génération vidéo Helios ?
A Helios est un modèle de diffusion autorégressif de 14B pour la génération de vidéos de longue durée en temps réel, capable de fonctionner à 19,5 FPS sur un seul GPU NVIDIA H100. Il prend en charge les tâches de texte-vers-vidéo (T2V), d'image-vers-vidéo (I2V) et de vidéo-vers-vidéo (V2V) avec une représentation d'entrée unifiée. Helios parvient à une génération à l'échelle de la minute tout en égalant la qualité de modèles de référence solides sans dépendre des techniques d'accélération habituelles.
Q Helios peut-il générer des vidéos à l'échelle de la minute ?
A Oui, Helios prend en charge la génération de vidéos à l'échelle de la minute. Il est conçu pour la génération de vidéos longues, utilisant une approche autorégressive qui génère 33 images par segment pour une performance optimale.
Q Comment Helios évite-t-il la dérive (drifting) dans les vidéos longues sans KV-cache ?
A Helios évite la dérive dans les vidéos longues grâce à des stratégies d'entraînement simples mais efficaces qui simulent explicitement les modes de défaillance de dérive typiques pendant l'entraînement, éliminant les mouvements répétitifs à la source. Il atteint une robustesse sans les heuristiques anti-dérive couramment utilisées comme le self-forcing, les error-banks ou l'échantillonnage d'images clés, et sans les techniques standards telles que le KV-cache.
Q Comment Helios se compare-t-il à Sora 2 ou Veo 3.1 ?
A Helios surpasse les modèles distillés existants dans les benchmarks de vidéos courtes et longues tout en égalant les performances des modèles de base, et il est nettement plus rapide que les modèles de taille similaire sur un seul GPU H100, atteignant un débit de bout en bout de 19,5 FPS. Les résultats de recherche ne fournissent pas de comparaisons directes avec Sora 2 ou Veo 3.1.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!