LTX-2 (LTX Video) 评测:首个开源的“音视同步”基础模型
正当我们以为混元 (Hunyuan) 和 Wan 2.1 之间的 AI 视频大战即将平息时,Lightricks 投下了一枚重磅炸弹。LTX-2(原名 LTX Video)正式开放权重开源,它绝不仅仅是另一个视频生成器。
它是世界上第一个能够进行 联合音视频生成 (Joint Audiovisual Generation) 的开源基础模型——意味着它能在一次推理中同时生成视频和同步的音频。
但对于本地用户来说,真正的头条新闻是 效率。与极度消耗显存的混元视频不同,LTX-2 可以舒适地在 16GB 消费级显卡上运行(使用 NVFP8 量化),其接近实时的生成速度让其他模型感觉像是在慢动作渲染。
如果您正在寻找 2026 年既能生成声音又不会烧显卡的开源 AI 视频生成器,就是它了。在本指南中,我们将深入探讨其规格,对比 LTX-2 vs 混元视频,并教您如何立即上手使用。
核心创新:联合音视频生成
Lightricks 解决了一个巨大的痛点:声音设计。 基于新颖的 DiT (Diffusion Transformer) 架构,LTX-2 理解画面运动与声音之间的关联。
- 工作原理: 当您输入“玻璃破碎”的提示词时,模型会瞬间生成碎片飞溅的画面 以及 同步的玻璃碎裂声。
- 意义所在: 不再需要寻找素材库音效,也不用在后期制作中费力对齐音频。一切都是原生生成的。
关键规格
- 分辨率: 原生支持 4K(本地显卡优化为 720p)。
- 帧率: 最高 50 FPS 以实现流畅运动(标准为 24 FPS)。
- 音频: 原生同步音频生成(48kHz 立体声)。
- 许可: 免费商用(适用于年收入低于 1000 万美元的实体,即 <$10M)。
硬件需求:你能运行它吗?
这是 LTX-2 大放异彩的地方。虽然 Run LTX Video locally 24GB VRAM 是 4K 生成的理想场景,但该模型使用 NVFP8 量化 完美适配了中端显卡。
720p (4秒) 最低配置
- 显卡 (GPU): NVIDIA RTX 3080 / 4070 Ti / 4080 (12GB - 16GB 显存)。
- 内存 (RAM): 32GB 系统内存。
- 存储: 50GB SSD 空间。
对于那些问“Run LTX Video locally 16GB VRAM”的人——是的,绝对可以。 通过在 ComfyUI 中启用 FP8 文本编码器和模型权重,您可以生成 720p / 24fps / 4秒 的片段而不会遇到 OOM(显存不足)错误。

LTX-2 vs 混元视频:巅峰对决
我们对这两款模型进行了广泛测试。以下是 2026 年的评测结论。
| 特性 | LTX-2 (Lightricks) | 混元视频 (Hunyuan) | Wan 2.1 |
|---|---|---|---|
| 音频 | 原生同步 (胜出) | 无 | 无 |
| 速度 | 极快 (FP8) | 中等 | 慢 (高质量) |
| 显存 | 16GB 友好 | 建议 24GB+ | 48GB+ (企业级) |
| 连贯性 | 良好 (短片段) | 优秀 | 业界最佳 |
| 许可 | 社区许可 (<$10M) | 开源 | 开源 |
结论: 如果您制作社交媒体内容、音乐可视化或 声音 至关重要的场景,请选择 LTX-2。如果您需要好莱坞级别的视觉连贯性且不在乎音频,请选择 混元 或 Wan 2.1。
教程:如何使用 LTX-2 (在线 vs 本地)
您有两种方式运行此模型。
选项 1:最简单的方式(推荐)
您不需要一张 2000 美元的显卡来使用 LTX-2。我们已将完整模型直接集成到了我们的平台中。
- 无需安装: 打开即用。
- 极速生成: 基于我们的云端。
- 即时预览: 原生音视频同步预览。
立即在线试用 LTX-2 (点击开始生成)。
选项 2:本地 ComfyUI 设置(面向开发者)
如果您更喜欢在本地运行,请遵循以下步骤:
- 安装自定义节点: 在 Manager 中搜索
ComfyUI-LTXVideo。 - 下载权重: 从 Hugging Face 获取
ltx-video-2b-v0.9.safetensors(FP8 版本)。 - 加载工作流: 构建连接 LTX Loader 和 Sampler 的标准工作流。
- 开始生成: 将帧数设置为 97(约 4 秒)并享受创作。
专家提示: 本地设置通常涉及复杂的 Python 依赖问题。如果您遇到报错,建议切换到我们的在线工具以获得无缝体验。
LTX-2 提示词工程技巧
获得好结果需要特定的提示词策略。LTX-2 既理解视觉线索也理解听觉线索。
1. 音视提示词 (Audio-Visual Prompts)
在您的视觉提示词中描述声音:
- 提示词: "A cinematic shot of a thunderstorm, lightning strikes a tree, loud thunder crack, rain pouring sound."(雷暴的电影镜头,闪电击中树木,巨大的雷声,倾盆大雨声。)
- 结果: 模型会将闪光的瞬间与雷声的峰值同步。
2. 运镜控制
使用这些词来指导镜头:
LTX Video camera control prompts: "Camera pan right" (镜头右移), "Slow zoom in" (缓慢推近), "Drone shot" (无人机镜头), "Low angle" (低角度)。- 示例: "Cinematic drone shot flying over a cyberpunk city, neon lights, fog, 4k, highly detailed, electronic synthesizer music background."
3. 负面提示词列表
为了避免快速模型常见的“面部融化”效应,请使用此 LTX Video 负面提示词列表:
"Blurry, distorted, morphing, jittery, watermarks, text, bad anatomy, static, frozen, silence, muted."

常见问题:故障排除与优化
问:我本地生成的画面全是黑屏。
答:这通常是因为使用了错误的 VAE dtype。如果您的 GPU 支持(RTX 30/40 系列),请确保 VAE 设置为 bfloat16;如果是旧卡,请设为 float32。
问:LTX-2 设置 720p 会导致电脑死机。
答:在您的 ComfyUI bat 启动文件中启用 --lowvram。此外,确保您的“帧数 (frame count)”遵循 (8 * n) + 1 公式(例如 97, 121),以获得最佳的张量对齐。
问:我可以商用吗? 答:可以!如果您的年收入低于 1000 万美元,LTX-2 社区许可 允许完全的商业用途。
结语
Lightricks LTX-2 是开源 AI 的一个关键时刻。这是我们第一次拥有一个集 速度、音频 和 易用性 于一体的模型。
虽然它在像素级的连贯性上可能无法击败 Wan 2.1,但生成 同步音视频片段 的能力是革命性的。对于大多数创作者来说,LTX-2 是终于将声音带入 AI 视频派对的工具。
Seedance 1.5 Pro 评测:字节跳动打造的完美口型音视双绝之作
继 LTX-2 之后,Seedance 1.5 Pro 登场。原生音视联合生成、精准口型同步,现在即可在线体验其复杂的运镜控制。
The Next Generation of Generation: Unpacking the Wan 2.7 Upgrade
The highly anticipated Wan 2.7 Video release marks a turning point, introducing a multi-modal injection system and a studio-grade workflow for creators.
音画同步实战指南:Kling Video 3.0 Omni 对口型深度教程
Kling Video 3.0 Omni 原生视听能力完整攻略。学习如何实现精准对口型、音画同步直出、复杂情感再现,打造专业级AI视频内容。
零成本动捕棚实战指南:用 Kling 3.0 动作控制打造极限动作物理
掌握 Kling 3.0 极限动作 AI,学习如何零成本创建影视级战斗编排、跑酷动作无缝迁移和 VFX 级动画,彻底告别面条手和肢体融化。
10个Kling 3.0 Motion Control病毒式Prompt:从AI小猫跳舞到VTuber
发现10个Kling 3.0 Motion Control病毒式Prompt。学习如何用Kling 3.0 AI视频生成器创建AI小猫跳舞视频、让历史人物动起来,以及制作VTuber内容。
Kling 3 Motion Control vs 原版:AI 角色动画的终极升级,告别抽卡与穿模
深入了解 Kling 3 动作控制相比原版的史诗级飞跃。学习它如何修复 AI 视频穿模、脸崩问题,保证时空一致性,并彻底解决肢体融化难题。
如何优化 Seedance 2.0 成本:开发者节省50%费用的指南
掌握 Seedance 2.0 的经济学,通过经过验证的策略将 API 成本降低50%。学习'草稿-锁定-最终'工作流程和令牌优化技术。
Seedance 2.0 定价揭晓:每秒1元的成本是否意味着 Sora 2 的终结?
字节跳动的Seedance 2.0定价正式公布:高质量AI视频每秒仅需1元。了解这一价格结构如何挑战Sora 2并重塑整个行业。