LTX-2 (LTX Video) 리뷰: 최초의 오픈 소스 "시청각" 파운데이션 모델

Hunyuan(혼원)과 Wan 2.1 사이의 AI 비디오 전쟁이 진정되나 싶었던 순간, Lightricks가 폭탄을 떨어뜨렸습니다. LTX-2(이전 명칭 LTX Video)가 공식적으로 오픈 웨이트로 공개되었으며, 이것은 단순한 또 다른 비디오 생성기가 아닙니다.

이것은 **결합 시청각 생성(Joint Audiovisual Generation)**이 가능한 세계 최초의 오픈 웨이트 파운데이션 모델입니다. 즉, 한 번의 패스로 비디오와 동기화된 오디오를 동시에 생성합니다.

하지만 로컬 사용자에게 진짜 헤드라인은 효율성입니다. VRAM을 많이 소모하는 Hunyuan Video와 달리, LTX-2는 16GB 소비자용 GPU에서 편안하게 실행되며(NVFP8 양자화 사용), 다른 모델들이 슬로우 모션으로 렌더링하는 것처럼 느껴질 정도로 거의 실시간에 가까운 생성 속도를 제공합니다.

사운드를 생성하면서 GPU를 녹이지 않는 2026년형 오픈 소스 AI 비디오 생성기를 찾고 있다면, 이것이 바로 그 답입니다. 이 가이드에서는 스펙을 자세히 살펴보고, LTX-2 대 Hunyuan Video를 비교하며, 지금 바로 사용하는 방법을 보여드립니다.

혁신: 결합 오디오-비디오 생성

Lightricks는 사운드 디자인이라는 거대한 고충을 해결했습니다. 새로운 DiT(Diffusion Transformer) 아키텍처를 기반으로 구축된 LTX-2는 동작과 소리 사이의 상관관계를 이해합니다.

작동 원리: "유리가 깨지는 것"이라는 프롬프트를 입력하면, 모델은 시각적으로 파편이 튀는 장면과 동시에 동기화된 유리 깨지는 소리를 즉시 생성합니다.
중요한 이유: 더 이상 스톡 효과음을 검색하거나 포스트 프로덕션에서 오디오를 힘들게 동기화할 필요가 없습니다. 모든 것이 네이티브로 생성됩니다.

주요 사양

해상도: 네이티브 4K 지원 (로컬 GPU에 최적화된 720p).
프레임 속도: 부드러운 움직임을 위한 최대 50 FPS (표준은 24 FPS).
오디오: 네이티브 동기화 오디오 생성 (48kHz 스테레오).
라이선스: 상업적 사용 무료 (연간 수익 1,000만 달러 미만인 기업 대상, <$10M).

하드웨어 요구 사항: 실행할 수 있습니까?

이곳이 LTX-2가 빛나는 부분입니다. Run LTX Video locally 24GB VRAM이 4K에는 이상적이지만, 이 모델은 NVFP8 양자화를 사용하여 미드레인지 카드에 맞춥니다.

720p (4초) 최소 사양

GPU: NVIDIA RTX 3080 / 4070 Ti / 4080 (12GB - 16GB VRAM).
RAM: 32GB 시스템 RAM.
스토리지: 50GB SSD 공간.

"Run LTX Video locally 16GB VRAM"을 묻는 분들께—네, 절대적으로 가능합니다. ComfyUI에서 FP8 텍스트 인코더와 모델 웨이트를 활성화하면 OOM(메모리 부족) 오류 없이 720p / 24fps / 4초 클립을 생성할 수 있습니다.

LTX-2(FP8), Hunyuan 및 Wan 2.1 간의 VRAM 사용량 비교

LTX-2 대 Hunyuan Video: 대결

우리는 두 모델을 광범위하게 테스트했습니다. 여기 2026년의 판결이 있습니다.

기능	LTX-2 (Lightricks)	Hunyuan Video	Wan 2.1
오디오	네이티브 동기화 (승자)	없음	없음
속도	빠름 (FP8)	보통	느림 (고품질)
VRAM	16GB 친화적	24GB+ 권장	48GB+ (엔터프라이즈)
일관성	좋음 (짧은 클립)	훌륭함	동급 최강
라이선스	커뮤니티 (<$10M)	오픈 소스	오픈 소스

판결: 소셜 미디어 콘텐츠, 음악 시각화 및 소리가 중요한 시나리오에는 LTX-2를 선택하세요. 할리우드 수준의 시각적 일관성이 필요하고 오디오는 상관없다면 Hunyuan 또는 Wan 2.1을 선택하세요.

튜토리얼: LTX-2 사용 방법 (온라인 vs 로컬)

이 모델을 실행하는 데는 두 가지 옵션이 있습니다.

옵션 1: 가장 쉬운 방법 (권장)

LTX-2를 사용하기 위해 2,000달러짜리 GPU가 필요하지 않습니다. 우리는 전체 모델을 플랫폼에 직접 통합했습니다.

설치 불필요: 바로 사용 가능합니다.
빠른 생성: 클라우드 기반.
즉각적인 시청각 미리보기.

지금 온라인에서 LTX-2 체험하기 (클릭하여 생성 시작).

옵션 2: 로컬 ComfyUI 설정 (개발자용)

로컬에서 실행하는 것을 선호한다면 다음 단계를 따르세요:

커스텀 노드 설치: Manager에서 **ComfyUI-LTXVideo**를 검색합니다.
웨이트 다운로드: Hugging Face에서 ltx-video-2b-v0.9.safetensors (FP8 버전)를 받으세요.
워크플로우 로드: LTX Loader를 Sampler에 연결하는 표준 워크플로우를 구축하세요.
생성 대기열: 프레임을 97로 설정(약 4초)하고 즐기세요.

프로 팁: 로컬 설정은 종종 Python 의존성 문제 해결을 필요로 합니다. 오류가 발생하면 번거로움 없는 경험을 위해 온라인 도구로 전환하는 것을 권장합니다.

LTX-2 프롬프트 엔지니어링 팁

좋은 결과를 얻으려면 특정 프롬프트 전략이 필요합니다. LTX-2는 시각적 단서와 청각적 단서를 모두 이해합니다.

1. 시청각 프롬프트 (Audio-Visual Prompts)

시각적 프롬프트 안에 소리를 설명하세요:

프롬프트: "A cinematic shot of a thunderstorm, lightning strikes a tree, loud thunder crack, rain pouring sound."
결과: 모델은 번개의 섬광을 천둥소리의 피크와 동기화합니다.

2. 카메라 제어

샷을 연출하기 위해 이것들을 사용하세요:

LTX Video camera control prompts: "Camera pan right", "Slow zoom in", "Drone shot", "Low angle".
예시: "Cinematic drone shot flying over a cyberpunk city, neon lights, fog, 4k, highly detailed, electronic synthesizer music background."

3. 네거티브 프롬프트 목록

빠른 모델에서 흔히 발생하는 "녹아내리는 얼굴" 효과를 피하려면 이 LTX Video 네거티브 프롬프트 목록을 사용하세요:

"Blurry, distorted, morphing, jittery, watermarks, text, bad anatomy, static, frozen, silence, muted."

오디오-비디오 설정을 보여주는 LTX Video ComfyUI 노드 그래프 예시

FAQ: 문제 해결 및 최적화

Q: 로컬 생성이 검은 화면만 나옵니다. A: 이는 보통 잘못된 VAE dtype을 사용하는 경우 발생합니다. GPU가 지원하는 경우 VAE가 bfloat16으로 설정되어 있는지, 구형 카드인 경우 float32로 설정되어 있는지 확인하세요.

Q: LTX-2 720p 설정이 PC를 다운시킵니다. A: ComfyUI bat 파일에서 --lowvram을 활성화하세요. 또한 최적의 텐서 정렬을 위해 "프레임 수(frame count)"가 (8 * n) + 1 공식(예: 97, 121)을 따르는지 확인하세요.

Q: 상업적으로 사용할 수 있나요? A: 네! 연간 수익이 1,000만 달러 미만인 경우 LTX-2 커뮤니티 라이선스는 완전한 상업적 사용을 허용합니다.