Helios 14B:リアルタイム長時間動画生成

Breaking News テクノロジー
Close-up of a computer chip emitting glowing holographic film strips, symbolizing rapid AI video creation.
4K Quality
研究者たちは、単一のNVIDIA H100 GPUで秒間19.5フレームという画期的な速度を達成した140億パラメータの動画生成モデル「Helios」を発表しました。一般的な計算上のボトルネックを排除し、時間的ドリフトの問題を解決することで、Heliosは複雑な加速技術や大規模なハードウェアクラスターを必要とせずに、高品質な数分単位の動画を生成できます。

Helios動画生成モデルは、画期的な14Bパラメータの自己回帰拡散システムであり、リアルタイムで長尺の動画合成を行うために設計されている。単一のNVIDIA H100 GPUで、記録的な19.5フレーム/秒(FPS)を達成した。高速推論と堅牢なアーキテクチャの洗練された融合を促進することで、Heliosは分単位の動画生成をサポートし、テキストから動画(T2V)、画像から動画(I2V)、および動画から動画(V2V)のタスクをネイティブに処理する。このモデルは、生成AIにおける大きな飛躍を象徴しており、高解像度の時間的整合性に通常必要とされる重い計算負荷をかけることなく、業界をリードするベースラインに匹敵する品質を実現している。

Helios動画生成モデルとは何か?

Heliosは、リアルタイムの長尺動画生成のために特別に設計された14Bの自己回帰拡散モデルであり、スタンドアロンのハードウェア上で19.5 FPSという高品質なコンテンツを生成することが可能である。研究者のShenghai Yuan、Li Yuan、およびZongjian Liによって開発されたこのモデルは、統一された入力表現を利用して、マルチモーダルなクリエイティブワークフローを合理化する。大規模な並列化を必要とする従来のモデルとは異なり、Heliosは単一のNVIDIA H100上で効率的に動作するように最適化されており、研究者とクリエイターの両方にとって非常にアクセシビリティの高いツールとなっている。

Heliosの開発は、動画生成における「効率の壁」を克服する必要性から始まった。現代の動画モデルは、わずか数秒の映像を生成するために数十台のGPUを必要とすることが多い。Heliosは、インフラレベルの最適化を実装してメモリ消費量を削減し、トレーニングを加速させることで、この傾向を打破している。このモデルはメモリ効率が非常に高く、単一のH100 GPUが提供する80 GBのメモリ内に最大4つの14Bモデルを収めることができる。これは、この規模のモデルではこれまで不可能と考えられていた偉業である。

Heliosは時間的ロジックの融合を通じて分単位の動画を生成できるか?

はい。Heliosは分単位の動画生成のために明示的に設計されており、動画を33フレームのチャンクで処理する自己回帰アプローチを採用することで、時間的な一貫性を維持している。この長期的なコンテキストと効率的なチャンク化の融合により、以前の生成モデルで一般的であった急速な品質劣化を起こすことなく、拡張されたシーケンスを生成することが可能になった。動画を確率的イベントの連続したシーケンスとして扱うことで、Heliosはシーンを数分間の実行時間にわたって自然に延長することができる。

この長時間の生成を実現するために、研究者たちは従来のキーフレームサンプリングから脱却した。その代わりに、Heliosは生成プロセスをシームレスな流れとして扱い、すべてのフレームが先行する履歴コンテキストの圧縮表現に基づいて情報提供されるようにしている。この手法により、単純なキャラクターの動きであっても複雑な環境の変化であっても、モデルはシーンの物語の筋書きと物理的な一貫性を維持することができ、短尺および長尺の両方のフォーマットにおいて、強力な業界ベースラインの品質に効果的に匹敵している。

HeliosはKVキャッシュなしでどのように長尺動画のドリフトを回避しているのか?

Heliosは、学習フェーズ中に失敗モードをシミュレートする革新的なトレーニング戦略を活用することで、KVキャッシュや量子化を必要とせずに長尺動画のドリフトを回避している。繰り返し行われる動きや「ドリフト」エラーをその発生源で認識し、修正するようにモデルに明示的に教えることで、研究者たちはセルフフォーシングやエラーバンクのような一般的なヒューリスティックの必要性を取り除いた。その結果、高速でリアルタイムな推論中であっても安定性を維持する、より堅牢な自己回帰拡散プロセスが実現した。

Heliosの手法において、効率性は主要な目標であった。研究チームは、サンプリングステップで使用される履歴およびノイズの多いコンテキストを大幅に圧縮した。必要なサンプリング反復回数を減らすことで、わずか1.3Bのパラメータしか持たない生成モデルと同等、あるいはそれ以下の計算コストを達成した。この効率性により、処理速度のために視覚的な詳細を犠牲にすることが多い標準的な加速技術を使うことなく、モデルが高忠実度な出力を維持できることが保証されている。

Heliosモデルはマルチモーダルタスクの融合をサポートしているか?

Heliosのアーキテクチャは、異なるメディアタイプにわたる生成プロセスを簡素化する統一された入力表現を使用して、T2V、I2V、およびV2Vタスクの融合をネイティブにサポートしている。この柔軟性により、ユーザーは単一のフレームワーク内で、テキストプロンプトからの動画生成、静止画のアニメーション化、または既存の動画映像の変換を切り替えることができる。これらの表現を統一することで、Heliosはタスク固有のサブモデルを必要とせず、デプロイメントパイプライン全体の複雑さを軽減している。

著者らによって行われた広範な実験は、この統一されたアプローチが品質を損なわないことを証明している。ベンチマークテストにおいて、Heliosは短時間のクリップと長尺のシネマティックシーケンスの両方で、従来の最先端の手法を一貫して上回った。画像から動画(I2V)タスクをテキストプロンプトと同じ効率で処理できる能力は、参照画像の視覚的アイデンティティを維持することがプロの制作において重要であるAIシネマトグラフィの分野において、多用途な資産となる。

HeliosはSora 2やVeo 3.1と比較してどうか?

SoraやVeoのような独自のモデルとの直接的な実証比較は、利用可能性によって制限されるが、Heliosは単一のH100 GPU上で大幅に高速でありながら、強力なオープンベースラインの品質に匹敵する。Heliosは19.5 FPSのエンドツーエンドのスループットを達成しているが、同等の14Bパラメータモデルの多くは、その速度のわずかな一部に達するためにさえマルチノードクラスターを必要とする。このため、低遅延が主な制約となるリアルタイムアプリケーションにおいて、Heliosは優れた選択肢となる。

Heliosの重要性は、そのハードウェアのアクセシビリティにある。Soraのようなモデルが巨大なサーバーの壁の向こう側に置かれているのに対し、Heliosチームはベースモデル、コード、および蒸留モデルをコミュニティに公開する予定である。このオープンソースのアプローチにより、生成動画の分野におけるさらなる発展が可能になり、以前は資金豊富な産業研究所の独占領域であった高品質な長尺コンテンツの作成が民主化される可能性がある。

将来を見据えると、リアルタイムAIシネマトグラフィやゲーミングへの影響は計り知れない。Heliosが、極端な量子化や並列化フレームワークなしに、高パラメータモデルがリアルタイムで動作できることを証明したことで、インタラクティブメディアの新しい波が期待できる。今後のイテレーションでは、サンプリングステップがさらに削減され、分単位の高精細動画生成がコンシューマー向けハードウェアで実現可能になる可能性があり、デジタルビジュアルコンテンツの制作と消費の方法を根本的に変えることになるだろう。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Heliosビデオ生成モデルとは何ですか?
A Heliosは、リアルタイムで長尺ビデオを生成するための140億パラメータ(14B)の自己回帰拡散モデルであり、単一のNVIDIA H100 GPU上で19.5 FPSで動作可能です。統一された入力表現により、テキストからビデオ(T2V)、画像からビデオ(I2V)、ビデオからビデオ(V2V)のタスクをサポートしています。Heliosは、一般的な加速技術に頼ることなく、強力なベースラインの品質に匹敵しながら、分単位の生成を実現します。
Q Heliosは分単位のビデオを生成できますか?
A はい、Heliosは分単位のビデオ生成をサポートしています。これは長尺ビデオ生成用に設計されており、最適なパフォーマンスを得るために1チャンクあたり33フレームを生成する自己回帰アプローチを使用しています。
Q KVキャッシュを使用せずに、Heliosはどのようにして長尺ビデオのドリフトを回避しているのですか?
A Heliosは、トレーニング中に典型的なドリフトの失敗モードを明示的にシミュレートし、その根本原因である反復的な動きを排除する、シンプルかつ効果的なトレーニング戦略を通じて長尺ビデオのドリフトを回避します。セルフフォーシング、エラーバンク、キーフレームサンプリングといった一般的に使用されるアンチドリフト・ヒューリスティックや、KVキャッシュのような標準的な手法を使用することなく、堅牢性を実現しています。
Q HeliosはSora 2やVeo 3.1と比較してどうですか?
A Heliosは、ベースモデルの性能に匹敵しつつ、短尺および長尺ビデオの両方のベンチマークで既存の蒸留モデルを上回っています。また、単一のH100 GPU上で同規模のモデルよりも大幅に高速であり、19.5 FPSのエンドツーエンドのスループットを達成しています。なお、検索結果にはSora 2やVeo 3.1との直接的な比較は示されていません。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!