AI / MLVideo Generation2026.05.07

動画生成モデルの進化の歴史

2013年のVAEから2024年のSoraまで、動画生成AIの約10年の歩みを系譜図と一覧表で整理します。GANから拡散モデル、そしてDiTへと技術パラダイムがどう変遷してきたかを一目で追えます。

Evolution Graph

技術系譜図

矢印は技術的な影響・継承関係を表します。

グラフを読み込み中...

2013〜2016年：生成モデルの黎明期

2016〜2021年：動画GANの模索

2020〜2022年：拡散モデルの台頭

2023年：商用化・オープン化

2024年：DiT時代の開幕

2025年：OSSの最前線

Key Milestones

技術転換点

2014

GANの誕生

生成器と識別器の競争学習という革新的なアイデアが、生成AIの新時代を切り開いた。

2022

テキスト→動画

Make-A-Video・Imagen Videoが、テキスト文章から動画を生成する能力を初めて実用的なレベルで実証。

2023

商用サービス開始

Gen-2（Runway）がAPIとして一般公開。SVDがオープンソース化され、動画生成が広く利用可能に。

2024

世界モデルへ

Soraが1分超の高品質動画を生成し、物理法則に従う「世界モデル」としての可能性を示した。

2025

OSS最前線

Wan 2.1がT2V・I2Vで商用モデルと同等の品質を達成し、続くWan 2.5がさらに動き・整合性・長尺対応を強化。OSS動画生成の民主化が本格化。

第1世代｜〜2021年

GAN系

生成器と識別器の競争学習。不安定な訓練・モード崩壊という課題を抱えつつも動画生成の基礎を築いた。

第2世代｜2020〜2023年

拡散モデル系

ノイズ除去を繰り返すことで多様で高品質な動画を安定生成。テキスト→動画が現実的なレベルへ。

第3世代｜2024年〜

DiT（拡散Transformer）系

Transformerのスケーリング則を動画生成に適用。長尺・高解像度・物理的整合性を持つ世界モデルへ進化。HunyuanVideo・Wan 2.1などOSS勢も商用モデルに匹敵する水準に到達。

Model Details

各モデルの詳細

年代	モデル名	アーキテクチャ	技術的革新	備考
2013年	VAE Variational Autoencoder	オートエンコーダ	入力を潜在空間（正規分布）に圧縮し、そこからデータを再構成。確率的な表現学習を実現。	直接の動画生成には至らなかったが、後の動画拡散モデルで使われる潜在空間の基礎概念を確立。
2014年	GAN Generative Adversarial Network	GAN	生成器（G）と識別器（D）を敵対的に訓練。Gはリアルな偽データを生成し、DはリアルかどうかをG騙そうとする。	Goodfellow et al. が提案。その後のGAN研究・動画生成・画像編集の事実上の出発点。
2015年	DCGAN Deep Convolutional GAN	GAN	GANに畳み込み構造を導入し、訓練を安定化。バッチ正規化・Leaky ReLUなどのベストプラクティスを確立。	高解像度画像生成の礎。以後の動画GAN研究の標準的な出発点になった。
2016年	VGAN Video GAN	GAN	前景（動き）と背景（静止）を分けて生成する2ストリーム構造を採用。動画を初めてGANで生成。	動画生成研究の最初期モデル。解像度・長さともに限定的だったが、方向性を示した。
2018年	MoCoGAN Motion and Content GAN	GAN	潜在ベクトルを「内容（静的）」と「動き（時系列）」に分離してサンプリングし、時間的一貫性を持つ動画を生成。	動画生成における「内容と動きの分離」という設計思想を確立した先駆的モデル。
2019年	DVD-GAN Dual Video Discriminator GAN	GAN	空間的識別器と時間的識別器の2系統で品質を評価。大規模データセットで長時間・高解像度動画を生成。	GAN系動画生成の到達点の一つ。ただし拡散モデルの登場で主流から外れることになる。
2021年	VideoGPT Video GPT	Transformer（自己回帰）	VQ-VAEで動画をトークン列に変換し、GPTスタイルのTransformerで自己回帰的に生成。	Transformerを動画生成に応用した初期モデル。後のDiT系モデルへの布石になった。
2020年	DDPM Denoising Diffusion Probabilistic Models	拡散モデル	ガウスノイズを段階的に加えるforward processと、ノイズを除去するreverse processを学習。	Ho et al. が提案。画像生成での驚異的な品質が証明され、動画拡散モデルへの直接の起源になった。
2022年	VDM Video Diffusion Models	拡散モデル	DDPMの空間次元を時間軸に拡張。3D U-Netで動画全体のノイズを除去。時間的一貫性を保持。	Google Brainが発表。拡散モデルを動画へ初めて適用した先駆的研究。以降の動画生成研究の基礎。
2022年	Make-A-Video Make-A-Video	拡散モデル	テキスト→画像モデルの事前学習を活用し、ラベルなし動画データで動きを学習。テキストから動画を生成。	Metaが発表。テキスト→動画生成の実用化に向けた重要な一歩。ペアデータ不要という設計が革新的。
2022年	Imagen Video Imagen Video	拡散モデル（カスケード）	低解像度→高解像度・低FPS→高FPSへとカスケード状に段階的アップサンプリング。	Googleが発表。カスケード拡散の手法でHD動画の高品質生成を実現。SVDやSoraへの技術的先行者。
2023年	Gen-2 Gen-2 by Runway	拡散モデル	テキスト・画像・動画スタイルを入力として動画を生成・変換。マルチモーダルな条件付け生成を実現。	Runwayが提供する商用APIとして一般公開。クリエイター向け動画生成ツールの先駆けとなった。
2023年	Stable Video Diffusion Stable Video Diffusion	拡散モデル	Stable Diffusionをベースに動画生成へ拡張。画像を入力として時間的に一貫した動画を生成。	Stability AIがオープンソース公開。研究者・開発者が動画生成を自由に研究できる環境を整備。
2023年	Pika Pika 1.0	拡散モデル	テキスト・画像からの動画生成に加え、既存動画の一部編集（Inpainting）やスタイル変換に特化。	直感的なUIと高速生成でコンシューマー市場に普及。動画生成AIの大衆化を加速した。
2024年	Sora Sora	DiT（拡散Transformer）	動画をパッチ（spacetime patch）に分割し、DiTで処理。最長1分超の高品質動画を生成。物理法則を反映。	OpenAIが発表。「世界モデル」として注目を集め、動画AIの可能性を一段階引き上げた。
2024年	Lumiere Lumiere	拡散モデル（Space-Time U-Net）	空間と時間を同時に処理するSpace-Time U-Netを採用。動画全体を一括生成することで時間的一貫性を向上。	Googleが発表。フレームごとに生成してつなぐ手法に比べ、動作の滑らかさと一貫性で優位。
2024年	CogVideoX CogVideoX	DiT（拡散Transformer）	3D VAEで動画を効率的に圧縮し、Expert Transformer（DiT）でテキスト→動画生成。オープンソース公開。	Zhipu AIが開発。Sora同等クラスの品質をオープンソースで実現。研究・商用利用の民主化に貢献。
2024年	HunyuanVideo HunyuanVideo	DiT（拡散Transformer）	Causal 3D VAEで動画を時空間圧縮し、13Bパラメータ規模のTransformerで生成。Full Attentionで高品質化。	Tencentが2024年末にオープンソース公開。リリース時点でオープンソース動画生成モデルの最高水準を更新した。
2025年初頭	Wan 2.1 Wan 2.1（通义万相）	DiT（拡散Transformer）	テキスト→動画（T2V）と画像→動画（I2V）を高品質に両立。1.3B〜14BのマルチサイズモデルをApache 2.0で公開。	Alibabaが2025年初頭に公開。EvalVideoなど主要ベンチマークで商用モデルを上回る性能を記録。ローカル実行も可能。
2025年中頃	Wan 2.5 Wan 2.5（通义万相）	DiT（拡散Transformer）	Wan 2.1から動き表現・時間的整合性・出力解像度を大幅向上。カメラ軌跡制御や長尺動画生成にも対応。	Wan 2.1の直接の後継。OSS動画生成の新たなSOTAとして、商用クローズドモデルとほぼ同等の品質を実現した。

お問い合わせ

動画生成AIの活用について、お気軽にご相談ください。

お問い合わせフォームブログ一覧に戻る