メインコンテンツへスキップ
Wan 2.2 は WAN AI がリリースした新世代のマルチモーダル生成モデルです。このモデルは革新的な MoE(Mixture of Experts)アーキテクチャを採用しており、高ノイズと低ノイズのエキスパートモデルで構成されています。ノイズ除去タイムステップに応じてエキスパートモデルを分割できるため、より高品質な動画コンテンツを生成できます。 Wan 2.2 には 3 つのコア機能があります:映画レベルの美学制御で、専門的な映画産業の美学基準を深く統合し、照明、色彩、構図などの多次元視覚制御をサポートします。大規模複雑モーションで、様々な複雑な動きを簡単に再現し、動きの滑らかさと制御性を強化します。正確なセマンティック準拠で、複雑なシーンやマルチオブジェクト生成に優れ、ユーザーのクリエイティブな意図をより良く再現します。 このモデルはテキストから動画、画像から動画などの複数の生成モードをサポートし、コンテンツ作成、芸術創作、教育トレーニングなどのアプリケーションシナリオに適しています。 Wan2.2 プロンプトガイド

モデルのハイライト

  • 映画レベルの美学制御:専門的なカメラ言語、照明、色彩、構図などの多次元視覚制御をサポート
  • 大規模複雑モーション:様々な複雑な動きを滑らかに再現、動きの制御性と自然さを強化
  • 正確なセマンティック準拠:複雑なシーンの理解、マルチオブジェクト生成、クリエイティブな意図をより良く再現
  • 効率的な圧縮技術:5B バージョンの高圧縮率 VAE、メモリ最適化、混合トレーニングをサポート

Wan2.2 オープンソースモデルバージョン

Wan2.2 シリーズモデルは Apache 2.0 オープンソースライセンスに基づいており、商用利用をサポートしています。Apache 2.0 ライセンスは、元の著作権表示とライセンステキストを保持する限り、これらのモデルを商用目的を含めて自由に使用、修正、配布することを許可しています。
モデルタイプモデル名パラメータ主な機能モデルリポジトリ
ハイブリッドモデルWan2.2-TI2V-5B5Bテキストから動画と画像から動画の両方をサポートするハイブリッドバージョン、単一モデルで 2 つのコアタスク要件を満たす🤗 Wan2.2-TI2V-5B
画像から動画Wan2.2-I2V-A14B14B静止画像を動的動画に変換、コンテンツの一貫性と滑らかな動的プロセスを維持🤗 Wan2.2-I2V-A14B
テキストから動画Wan2.2-T2V-A14B14Bテキスト説明から高品質な動画を生成、映画レベルの美学制御と正確なセマンティック準拠を備える🤗 Wan2.2-T2V-A14B

ComfyOrg Wan2.2 ライブストリーム

ComfyUI Wan2.2 の使用方法について、ライブストリームを実施しました。視聴して使用方法を学ぶことができます。
このチュートリアルでは 🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackaged バージョンを使用します。
Make sure your ComfyUI is updated.Workflows in this guide can be found in the Workflow Templates. If you can’t find them in the template, your ComfyUI may be outdated. (Desktop version’s update will delay sometime)If nodes are missing when loading a workflow, possible reasons:
  1. You are not using the latest ComfyUI version (Nightly version)
  2. Some nodes failed to import at startup
Wan2.2 template

Wan2.2 TI2V 5B ハイブリッドバージョンワークフロー例

Wan2.2 5B バージョンは、ComfyUI ネイティブのオフローディング機能を使用すれば、8GB VRAM で十分に動作します。

1. ワークフローファイルのダウンロード

ComfyUI を最新バージョンに更新し、メニュー Workflow -> Browse Templates -> Video から「Wan2.2 5B video generation」を見つけてワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

Run on Comfy Cloud

2. モデルの手動ダウンロード

Diffusion Model VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors

3. 手順に従う

ステップ図
  1. Load Diffusion Model ノードが wan2.2_ti2v_5B_fp16.safetensors モデルを読み込んでいることを確認してください。
  2. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込んでいることを確認してください。
  3. Load VAE ノードが wan2.2_vae.safetensors モデルを読み込んでいることを確認してください。
  4. (オプション)画像から動画の生成を行う必要がある場合は、ショートカット Ctrl+B を使用して Load image ノードを有効にし、画像をアップロードできます。
  5. (オプション)Wan22ImageToVideoLatent ノードで、サイズ設定と動画の総フレーム数(length)を調整できます。
  6. (オプション)プロンプト(ポジティブおよびネガティブ)を変更する必要がある場合は、手順 5 の CLIP Text Encoder ノードで変更してください。
  7. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

Wan2.2 14B T2V テキストから動画ワークフロー例

1. ワークフローファイル

ComfyUI を最新バージョンに更新し、メニュー Workflow -> Browse Templates -> Video から「Wan2.2 14B T2V」を見つけてワークフローを読み込んでください。 または、ComfyUI を最新バージョンに更新した後、以下の動画をダウンロードして ComfyUI にドラッグし、ワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

Run on Comfy Cloud

2. モデルの手動ダウンロード

Diffusion Model VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. 手順に従う

ステップ図
  1. 最初の Load Diffusion Model ノードが wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  2. 2 番目の Load Diffusion Model ノードが wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  3. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込んでいることを確認してください。
  4. Load VAE ノードが wan_2.1_vae.safetensors モデルを読み込んでいることを確認してください。
  5. (オプション)EmptyHunyuanLatentVideo ノードで、サイズ設定と動画の総フレーム数(length)を調整できます。
  6. (オプション)プロンプト(ポジティブおよびネガティブ)を変更する必要がある場合は、手順 6 の CLIP Text Encoder ノードで変更してください。
  7. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

Wan2.2 14B I2V 画像から動画ワークフロー例

1. ワークフローファイル

ComfyUI を最新バージョンに更新し、メニュー Workflow -> Browse Templates -> Video から「Wan2.2 14B I2V」を見つけてワークフローを読み込んでください。 または、ComfyUI を最新バージョンに更新した後、以下の動画をダウンロードして ComfyUI にドラッグし、ワークフローを読み込んでください。

JSON ワークフローファイルをダウンロード

Run on Comfy Cloud

以下の画像を入力として使用できます: 入力画像

2. モデルの手動ダウンロード

Diffusion Model VAE Text Encoder
ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. 手順に従う

ステップ図
  1. 最初の Load Diffusion Model ノードが wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  2. 2 番目の Load Diffusion Model ノードが wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors モデルを読み込んでいることを確認してください。
  3. Load CLIP ノードが umt5_xxl_fp8_e4m3fn_scaled.safetensors モデルを読み込んでいることを確認してください。
  4. Load VAE ノードが wan_2.1_vae.safetensors モデルを読み込んでいることを確認してください。
  5. Load Image ノードで、起始フレームとして使用する画像をアップロードしてください。
  6. プロンプト(ポジティブおよびネガティブ)を変更する必要がある場合は、手順 6 の CLIP Text Encoder ノードで変更してください。
  7. (オプション)EmptyHunyuanLatentVideo で、サイズ設定と動画の総フレーム数(length)を調整できます。
  8. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

Wan2.2 14B FLF2V ワークフロー例

最初と最後のフレームのワークフローは、I2V セクションと同じモデル場所を使用します。

1. ワークフローと入力素材の準備

以下の動画または JSON ワークフローをダウンロードし、ComfyUI で開いてください。

JSON ワークフローをダウンロード

Run on Comfy Cloud

以下の画像を入力素材としてダウンロードしてください: 入力素材 入力素材

2. 手順に従う

ステップ図
  1. 最初の Load Image ノードで、起始フレームとして使用する画像をアップロードしてください。
  2. 2 番目の Load Image ノードで、終了フレームとして使用する画像をアップロードしてください。
  3. WanFirstLastFrameToVideo ノードでサイズ設定を調整してください。
    • デフォルトでは、低 VRAM ユーザーがリソースを使いすぎないように、比較的小さいサイズが設定されています。
    • 十分な VRAM がある場合は、720P 程度の解像度を試すことができます。
  4. 最初と最後のフレームに応じて、適切なプロンプトを作成してください。
  5. Run ボタンをクリックするか、ショートカット Ctrl(cmd) + Enter を使用して動画生成を実行してください。

コミュニティリソース

GGUF バージョン

カスタムノード City96/ComfyUI-GGUF

WanVideoWrapper

Kijai/ComfyUI-WanVideoWrapper Wan2.2 モデル Kijai/WanVideo_comfy_fp8_scaled Wan2.1 モデル Kijai/WanVideo_comfy/Lightx2v Lightx2v 4steps LoRA