LTX-2 ComfyUI 가이드: 완전한 로컬 배포 튜토리얼
2025년 1월 7일
10분 읽기

LTX-2 ComfyUI 가이드: 완전한 로컬 배포 튜토리얼

ComfyUI로 LTX-2를 로컬에서 실행하는 단계별 가이드. 텍스트-투-비디오, 이미지-투-비디오, 오디오 동기화 워크플로우 설정 방법을 알아보세요.

튜토리얼
ComfyUI
로컬 배포
“AI 비디오 생성을 완전히 제어하세요—ComfyUI의 강력한 노드 기반 워크플로우로 자체 하드웨어에서 LTX-2를 실행하세요.”

왜 ComfyUI로 LTX-2를 로컬에서 실행해야 할까요?

LTX-2를 로컬에서 실행하면 클라우드 기반 솔루션에 비해 여러 가지 매력적인 이점이 있습니다. 완전한 프라이버시를 얻을 수 있습니다—프롬프트와 생성된 비디오가 절대 컴퓨터를 떠나지 않습니다. 초기 하드웨어 투자 후에는 생성당 비용이 없어집니다. LoRA 모델로 워크플로우를 커스터마이징하고 특정 스타일에 맞게 기본 모델을 파인튜닝할 수 있습니다. 그리고 네트워크 지연이나 대기 시간 없이 더 빠른 반복이 가능합니다. ComfyUI는 LTX-2에 이상적인 인터페이스를 제공하며, 복잡한 비디오 생성 파이프라인을 직관적이고 재현 가능하게 만드는 노드 기반 비주얼 워크플로우를 제공합니다. 이 가이드는 초기 설정부터 고급 최적화 기술까지 모든 것을 안내합니다.

시스템 요구 사항 및 전제 조건

시작하기 전에 시스템이 최소 요구 사항을 충족하는지 확인하세요. GPU의 경우 최소 24GB VRAM이 있는 NVIDIA 카드가 필요합니다(RTX 4090, A6000 또는 A100 권장). 4K 해상도에서 최적의 성능을 위해서는 48GB+ VRAM이 이상적입니다. 시스템에는 최소 32GB RAM과 모델용 100GB의 여유 디스크 공간이 필요합니다. 소프트웨어 요구 사항에는 Python 3.10 이상, 호환 드라이버가 있는 CUDA 12.0 이상, 저장소 복제를 위한 Git, 비디오 처리를 위한 FFmpeg가 포함됩니다. Windows 사용자는 Visual Studio Build Tools가 설치되어 있는지 확인하세요. Linux의 경우 표준 빌드 도구로 충분합니다. Mac 사용자는 LTX-2가 현재 NVIDIA CUDA를 필요로 하며 Apple Silicon을 네이티브로 지원하지 않는다는 점에 유의하세요.

ComfyUI 및 LTX-2 모델 설치

ComfyUI 저장소를 복제하는 것으로 시작합니다: git clone https://github.com/comfyanonymous/ComfyUI. 디렉토리로 이동하여 pip install -r requirements.txt로 종속성을 설치합니다. 다음으로 Hugging Face에서 LTX-2 모델 가중치를 다운로드합니다. 메인 모델 파일을 ComfyUI/models/checkpoints/에, VAE를 ComfyUI/models/vae/에 배치합니다. 오디오 생성의 경우 오디오 모델을 별도로 다운로드하여 해당 폴더에 배치합니다. 확장 프로그램을 ComfyUI/custom_nodes/에 복제하여 LTX-2 커스텀 노드를 설치합니다. 설치 후 ComfyUI를 재시작하고 LTX-2 노드가 노드 메뉴에 나타나는지 확인합니다. 초기 모델 로드는 스토리지 속도에 따라 몇 분이 걸릴 수 있습니다.

텍스트-투-비디오 워크플로우 구축

다음 노드를 추가하여 기본 텍스트-투-비디오 워크플로우를 만듭니다: LTX-2 Model Loader(체크포인트에 연결), CLIP Text Encode(프롬프트용), LTX-2 Video Sampler(코어 생성 노드), VAE Decode(잠재 변수를 비디오 프레임으로 변환), Video Combine(최종 비디오 파일 출력). 노드를 순서대로 연결하고 샘플러 설정을 구성합니다. 최상의 결과를 위해 30-50 디노이징 단계, 7-9 사이의 CFG 스케일을 사용하고 대상 해상도(테스트용 720p, 최종 출력용 4K)를 선택합니다. 프레임 수가 비디오 길이를 결정합니다—25 FPS에서 150 프레임은 6초 비디오를 제공합니다. 동기화된 오디오 출력을 원하면 Video Sampler 뒤에 Audio Generator 노드를 추가합니다.

이미지-투-비디오 애니메이션 워크플로우

정적 이미지를 애니메이션화하려면 Image Loader 노드를 추가하여 텍스트-투-비디오 워크플로우를 수정합니다. 이미지는 첫 프레임 참조를 제공하여 비디오 전체에 걸쳐 시각적 일관성을 보장합니다. 이미지를 LTX-2 Video Sampler의 이미지 입력에 연결합니다. 이미지 영향 강도를 조정합니다—높은 값(0.7-0.9)은 소스 이미지에 더 가까운 충실도를 유지하고, 낮은 값(0.3-0.5)은 더 창의적인 움직임을 허용합니다. 프롬프트는 이미지 내용이 아닌 원하는 애니메이션을 설명해야 합니다. 예를 들어, 이미지의 사람을 설명하는 대신 '카메라가 천천히 오른쪽으로 패닝, 머리카락에 미세한 바람 움직임'과 같이 작성합니다. 이 워크플로우는 제품 애니메이션, 초상화 애니메이션, 스타일 일관성 있는 비디오 시리즈에 탁월합니다.

네이티브 오디오 동기화 구성

LTX-2의 획기적인 기능은 비디오 콘텐츠와 완벽하게 동기화되는 네이티브 오디오 생성입니다. Video Sampler 뒤에 LTX-2 Audio Generator 노드를 추가하여 오디오를 활성화합니다. 오디오 노드는 생성된 비디오를 분석하고 일치하는 사운드를 생성합니다—정확한 립싱크가 있는 대화, 환경 앰비언스, 배경 음악. 오디오 유형을 구성합니다: 'full'은 모든 오디오 유형 생성, 'dialogue'는 음성에 집중, 'ambient'는 환경 사운드 생성, 'music'은 배경 트랙 추가. 대화의 경우 프롬프트에 화자 설명을 포함합니다: '깊은 목소리의 남자가 기술에 대해 천천히 말하고 있다'. 오디오 샘플링 레이트는 기본 44.1kHz입니다—다운스트림 워크플로우가 다른 레이트를 필요로 하면 조정하세요. 출력 형식은 WAV와 MP3를 지원합니다.

성능 최적화 팁

이러한 최적화로 생성 속도와 품질을 극대화하세요. 모델 로딩 시 FP16 정밀도를 활성화하여 최소한의 품질 손실로 VRAM 사용량을 절반으로 줄입니다. 더 빠른 어텐션 계산을 위해 xformers 또는 flash-attention을 사용합니다—pip install xformers로 설치. 멀티 GPU 설정의 경우 ComfyUI는 디바이스 간 모델 분산을 지원합니다. 배치 처리: 여러 생성을 대기열에 넣고 밤새 실행합니다. 해상도 전략: 프롬프트 테스트용 720p로 생성한 후 우수한 것을 4K로 재생성합니다. 캐싱: 생성 간 재로딩을 피하기 위해 모델 캐싱을 활성화합니다. VRAM 관리: 생성 중 다른 GPU 집약적 애플리케이션을 닫습니다. 4K 50 FPS의 경우 RTX 4090에서 10초 클립당 3-5분, A100에서 1-2분을 예상하세요.

일반적인 문제 및 해결책

CUDA 메모리 부족: 해상도를 낮추거나 메모리 효율적인 어텐션을 활성화합니다. 배치당 프레임 생성 수를 줄여보세요. 모델이 로드되지 않음: 올바른 모델 디렉토리에 파일이 배치되었는지 확인합니다. 모델 파일이 손상되지 않았는지 확인합니다(체크섬 비교). 검은색 또는 손상된 출력: GPU 드라이버를 최신 버전으로 업데이트합니다. CUDA 버전이 PyTorch CUDA 버전과 일치하는지 확인합니다. 오디오 동기화 불량: 명시적인 오디오 타이밍 매개변수로 재생성합니다. 비디오 FPS가 오디오 샘플 레이트 계산과 일치하는지 확인합니다. 느린 생성: 모든 권장 최적화를 활성화합니다. GPU VRAM 업그레이드를 고려하세요. ComfyUI가 시작되지 않음: ComfyUI/custom_nodes/__pycache__ 폴더를 삭제하고 재시작합니다. 모든 커스텀 노드를 최신 버전으로 업데이트합니다. 지속적인 문제의 경우 LTX-2 커뮤니티 Discord와 GitHub 이슈가 특정 구성 문제 해결에 훌륭한 리소스입니다.

핵심 요약

ComfyUI로 LTX-2를 로컬에서 실행하면 AI 비디오 생성을 완전히 제어할 수 있습니다—프라이버시, 비용 절감, 무제한 커스터마이징. 적절한 설정으로 소비자 하드웨어에서 동기화된 오디오가 있는 4K 비디오를 생성할 수 있습니다.

이 글 공유하기

대화에 참여하세요 — Ltx-2 AI 커뮤니티와 최신 창작물이나 피드백을 공유하세요.