'LTX-2 (LTX Video) 评测：首个开源的“音视同步”基础模型'

正当我们以为混元 (Hunyuan) 和 Wan 2.1 之间的 AI 视频大战即将平息时，Lightricks 投下了一枚重磅炸弹。LTX-2（原名 LTX Video）正式开放权重开源，它绝不仅仅是另一个视频生成器。

它是世界上第一个能够进行 联合音视频生成 (Joint Audiovisual Generation) 的开源基础模型——意味着它能在一次推理中同时生成视频和同步的音频。

但对于本地用户来说，真正的头条新闻是效率。与极度消耗显存的混元视频不同，LTX-2 可以舒适地在 16GB 消费级显卡上运行（使用 NVFP8 量化），其接近实时的生成速度让其他模型感觉像是在慢动作渲染。

如果您正在寻找 2026 年既能生成声音又不会烧显卡的开源 AI 视频生成器，就是它了。在本指南中，我们将深入探讨其规格，对比 LTX-2 vs 混元视频，并教您如何立即上手使用。

核心创新：联合音视频生成

Lightricks 解决了一个巨大的痛点：声音设计。基于新颖的 DiT (Diffusion Transformer) 架构，LTX-2 理解画面运动与声音之间的关联。

这是 LTX-2 大放异彩的地方。虽然 Run LTX Video locally 24GB VRAM 是 4K 生成的理想场景，但该模型使用 NVFP8 量化 完美适配了中端显卡。

对于那些问“Run LTX Video locally 16GB VRAM”的人——是的，绝对可以。 通过在 ComfyUI 中启用 FP8 文本编码器和模型权重，您可以生成 720p / 24fps / 4秒 的片段而不会遇到 OOM（显存不足）错误。

LTX-2 (FP8)、混元和 Wan 2.1 之间的显存占用对比

我们对这两款模型进行了广泛测试。以下是 2026 年的评测结论。

特性	LTX-2 (Lightricks)	混元视频 (Hunyuan)	Wan 2.1
音频	原生同步 (胜出)	无	无
速度	极快 (FP8)	中等	慢 (高质量)
显存	16GB 友好	建议 24GB+	48GB+ (企业级)
连贯性	良好 (短片段)	优秀	业界最佳
许可	社区许可 (<$10M)	开源	开源

结论： 如果您制作社交媒体内容、音乐可视化或声音至关重要的场景，请选择 LTX-2。如果您需要好莱坞级别的视觉连贯性且不在乎音频，请选择混元或 Wan 2.1。

您有两种方式运行此模型。

您不需要一张 2000 美元的显卡来使用 LTX-2。我们已将完整模型直接集成到了我们的平台中。

立即在线试用 LTX-2 (点击开始生成)。

如果您更喜欢在本地运行，请遵循以下步骤：

专家提示： 本地设置通常涉及复杂的 Python 依赖问题。如果您遇到报错，建议切换到我们的在线工具以获得无缝体验。

获得好结果需要特定的提示词策略。LTX-2 既理解视觉线索也理解听觉线索。

在您的视觉提示词中描述声音：

提示词: "A cinematic shot of a thunderstorm, lightning strikes a tree, loud thunder crack, rain pouring sound."（雷暴的电影镜头，闪电击中树木，巨大的雷声，倾盆大雨声。）
结果： 模型会将闪光的瞬间与雷声的峰值同步。

使用这些词来指导镜头：

LTX Video camera control prompts: "Camera pan right" (镜头右移), "Slow zoom in" (缓慢推近), "Drone shot" (无人机镜头), "Low angle" (低角度)。
示例: "Cinematic drone shot flying over a cyberpunk city, neon lights, fog, 4k, highly detailed, electronic synthesizer music background."