LTX-2 ComfyUIガイド:完全ローカルデプロイメントチュートリアル
2025年1月7日
10分で読める

LTX-2 ComfyUIガイド:完全ローカルデプロイメントチュートリアル

ComfyUIでLTX-2をローカルで実行するためのステップバイステップガイド。テキストから動画、画像から動画、オーディオ同期ワークフローの設定方法を学びます。

チュートリアル
ComfyUI
ローカルデプロイ
“AI動画生成を完全にコントロール—ComfyUIの強力なノードベースワークフローで、自分のハードウェアでLTX-2を実行。”

なぜComfyUIでLTX-2をローカル実行するのか?

LTX-2をローカルで実行することは、クラウドベースのソリューションに比べていくつかの魅力的な利点があります。完全なプライバシーが得られます—プロンプトと生成された動画はマシンから出ることはありません。初期ハードウェア投資後は、生成ごとのコストを排除できます。LoRAモデルでワークフローをカスタマイズし、特定のスタイルに合わせてベースモデルをファインチューニングできます。そしてネットワーク遅延やキュー待ち時間なしで、より高速なイテレーションが可能です。ComfyUIはLTX-2に最適なインターフェースを提供し、複雑な動画生成パイプラインを直感的で再現可能にするノードベースのビジュアルワークフローを提供します。このガイドでは、初期設定から高度な最適化テクニックまで、すべてを説明します。

システム要件と前提条件

開始する前に、システムが最小要件を満たしていることを確認してください。GPUについては、少なくとも24GB VRAMを搭載したNVIDIAカードが必要です(RTX 4090、A6000、またはA100推奨)。4K解像度で最適なパフォーマンスを得るには、48GB以上のVRAMが理想的です。システムには少なくとも32GB RAMと、モデル用に100GBの空きディスク容量が必要です。ソフトウェア要件には、Python 3.10以上、CUDA 12.0以上と互換性のあるドライバー、リポジトリをクローンするためのGit、動画処理用のFFmpegが含まれます。Windowsユーザーは、Visual Studio Build Toolsがインストールされていることを確認してください。Linuxでは、標準のビルドツールで十分です。Macユーザーは、LTX-2は現在NVIDIA CUDAを必要とし、Apple Siliconをネイティブサポートしていないことに注意してください。

ComfyUIとLTX-2モデルのインストール

ComfyUIリポジトリをクローンすることから始めます:git clone https://github.com/comfyanonymous/ComfyUI。ディレクトリに移動し、pip install -r requirements.txtで依存関係をインストールします。次に、Hugging FaceからLTX-2モデルの重みをダウンロードします。メインモデルファイルをComfyUI/models/checkpoints/に、VAEをComfyUI/models/vae/に配置します。オーディオ生成については、オーディオモデルを別途ダウンロードし、対応するフォルダに配置します。拡張機能をComfyUI/custom_nodes/にクローンして、LTX-2カスタムノードをインストールします。インストール後、ComfyUIを再起動し、LTX-2ノードがノードメニューに表示されることを確認します。初期モデルの読み込みには、ストレージ速度に応じて数分かかる場合があります。

テキストから動画へのワークフロー構築

以下のノードを追加して基本的なテキストから動画へのワークフローを作成します:LTX-2 Model Loader(チェックポイントに接続)、CLIP Text Encode(プロンプト用)、LTX-2 Video Sampler(コア生成ノード)、VAE Decode(潜在表現を動画フレームに変換)、Video Combine(最終動画ファイルを出力)。ノードを順番に接続し、サンプラー設定を構成します。最良の結果を得るには、30〜50のデノイジングステップ、7〜9のCFGスケール、ターゲット解像度(テスト用720p、最終出力用4K)を選択します。フレーム数が動画の長さを決定します—25 FPSで150フレームは6秒の動画になります。同期オーディオ出力が必要な場合は、Video Samplerの後にAudio Generatorノードを追加します。

画像から動画へのアニメーションワークフロー

静止画像をアニメーション化するには、Image Loaderノードを追加してテキストから動画へのワークフローを修正します。画像は最初のフレームの参照を提供し、動画全体を通じて視覚的な一貫性を確保します。画像をLTX-2 Video Samplerの画像入力に接続します。画像影響の強度を調整します—高い値(0.7〜0.9)はソース画像への忠実度を維持し、低い値(0.3〜0.5)はより創造的な動きを許可します。プロンプトは画像の内容ではなく、望ましいアニメーションを説明する必要があります。例えば、画像の人物を説明するのではなく、「カメラがゆっくり右にパン、髪に微妙な風の動き」のように。このワークフローは製品アニメーション、ポートレートアニメーション、スタイル一貫性のある動画シリーズに最適です。

ネイティブオーディオ同期の設定

LTX-2の画期的な機能は、動画コンテンツと完璧に同期するネイティブオーディオ生成です。Video Samplerの後にLTX-2 Audio Generatorノードを追加してオーディオを有効にします。オーディオノードは生成された動画を分析し、一致するサウンドを生成します—正確なリップシンクの対話、環境アンビエンス、バックグラウンドミュージック。オーディオタイプを設定します:「full」はすべてのオーディオタイプを生成、「dialogue」は音声に焦点、「ambient」は環境音を作成、「music」はバックグラウンドトラックを追加。対話については、プロンプトに話者の説明を含めます:「低い声の男性がテクノロジーについてゆっくり話している」。オーディオサンプリングレートのデフォルトは44.1kHzです—下流のワークフローが異なるレートを必要とする場合は調整してください。出力形式はWAVとMP3をサポートします。

パフォーマンス最適化のヒント

これらの最適化で生成速度と品質を最大化します。モデル読み込み時にFP16精度を有効にして、最小限の品質低下でVRAM使用量を半減させます。より高速なアテンション計算のためにxformersまたはflash-attentionを使用します—pip install xformersでインストール。マルチGPU設定の場合、ComfyUIはデバイス間でのモデル分散をサポートします。バッチ処理:複数の生成をキューに入れ、一晩実行させます。解像度戦略:プロンプトテスト用に720pで生成し、勝者を4Kで再生成します。キャッシング:生成間の再読み込みを避けるためにモデルキャッシングを有効にします。VRAM管理:生成中は他のGPU集約型アプリケーションを閉じます。4K 50 FPSの場合、RTX 4090で10秒クリップあたり3〜5分、A100で1〜2分を見込んでください。

一般的な問題と解決策

CUDAメモリ不足:解像度を下げるか、メモリ効率の良いアテンションを有効にします。バッチあたりのフレーム生成数を減らしてみてください。モデルが読み込まれない:正しいモデルディレクトリにファイルが配置されているか確認します。モデルファイルが破損していないか確認します(チェックサムを比較)。黒または破損した出力:GPUドライバーを最新バージョンに更新します。CUDAバージョンがPyTorch CUDAバージョンと一致していることを確認します。オーディオの同期ずれ:明示的なオーディオタイミングパラメータで再生成します。動画FPSがオーディオサンプルレート計算と一致しているか確認します。生成が遅い:推奨されるすべての最適化を有効にします。GPU VRAMのアップグレードを検討してください。ComfyUIが起動しない:ComfyUI/custom_nodes/__pycache__フォルダを削除して再起動します。すべてのカスタムノードを最新バージョンに更新します。継続的な問題については、LTX-2コミュニティDiscordとGitHub issuesが特定の設定のトラブルシューティングに優れたリソースです。

重要なポイント

ComfyUIでLTX-2をローカル実行することで、AI動画生成を完全にコントロールできます—プライバシー、コスト削減、無制限のカスタマイズ。適切な設定により、コンシューマーハードウェアで同期オーディオ付きの4K動画を生成できます。

この記事を共有する

会話に参加 — Ltx-2 AI コミュニティと最新の作品やフィードバックを共有しましょう。