
'LTX-2 (LTX Video) 评测:首个开源的“音视同步”基础模型'
正当我们以为混元 (Hunyuan) 和 Wan 2.1 之间的 AI 视频大战即将平息时,Lightricks 投下了一枚重磅炸弹。LTX-2(原名 LTX Video)正式开放权重开源,它绝不仅仅是另一个视频生成器。
它是世界上第一个能够进行 联合音视频生成 (Joint Audiovisual Generation) 的开源基础模型——意味着它能在一次推理中同时生成视频和同步的音频。
但对于本地用户来说,真正的头条新闻是 效率。与极度消耗显存的混元视频不同,LTX-2 可以舒适地在 16GB 消费级显卡上运行(使用 NVFP8 量化),其接近实时的生成速度让其他模型感觉像是在慢动作渲染。
如果您正在寻找 2026 年既能生成声音又不会烧显卡的开源 AI 视频生成器,就是它了。在本指南中,我们将深入探讨其规格,对比 LTX-2 vs 混元视频,并教您如何立即上手使用。
核心创新:联合音视频生成
Lightricks 解决了一个巨大的痛点:声音设计。 基于新颖的 DiT (Diffusion Transformer) 架构,LTX-2 理解画面运动与声音之间的关联。
- 工作原理: 当您输入“玻璃破碎”的提示词时,模型会瞬间生成碎片飞溅的画面 以及 同步的玻璃碎裂声。
- 意义所在: 不再需要寻找素材库音效,也不用在后期制作中费力对齐音频。一切都是原生生成的。
关键规格
- 分辨率: 原生支持 4K(本地显卡优化为 720p)。
- 帧率: 最高 50 FPS 以实现流畅运动(标准为 24 FPS)。
- 音频: 原生同步音频生成(48kHz 立体声)。
- 许可: 免费商用(适用于年收入低于 1000 万美元的实体,即 <$10M)。
硬件需求:你能运行它吗?
这是 LTX-2 大放异彩的地方。虽然 Run LTX Video locally 24GB VRAM 是 4K 生成的理想场景,但该模型使用 NVFP8 量化 完美适配了中端显卡。
720p (4秒) 最低配置
- 显卡 (GPU): NVIDIA RTX 3080 / 4070 Ti / 4080 (12GB - 16GB 显存)。
- 内存 (RAM): 32GB 系统内存。
- 存储: 50GB SSD 空间。
对于那些问“Run LTX Video locally 16GB VRAM”的人——是的,绝对可以。 通过在 ComfyUI 中启用 FP8 文本编码器和模型权重,您可以生成 720p / 24fps / 4秒 的片段而不会遇到 OOM(显存不足)错误。

LTX-2 vs 混元视频:巅峰对决
我们对这两款模型进行了广泛测试。以下是 2026 年的评测结论。
| 特性 | LTX-2 (Lightricks) | 混元视频 (Hunyuan) | Wan 2.1 |
|---|---|---|---|
| 音频 | 原生同步 (胜出) | 无 | 无 |
| 速度 | 极快 (FP8) | 中等 | 慢 (高质量) |
| 显存 | 16GB 友好 | 建议 24GB+ | 48GB+ (企业级) |
| 连贯性 | 良好 (短片段) | 优秀 | 业界最佳 |
| 许可 | 社区许可 (<$10M) | 开源 | 开源 |
结论: 如果您制作社交媒体内容、音乐可视化或 声音 至关重要的场景,请选择 LTX-2。如果您需要好莱坞级别的视觉连贯性且不在乎音频,请选择 混元 或 Wan 2.1。
教程:如何使用 LTX-2 (在线 vs 本地)
您有两种方式运行此模型。
选项 1:最简单的方式(推荐)
您不需要一张 2000 美元的显卡来使用 LTX-2。我们已将完整模型直接集成到了我们的平台中。
- 无需安装: 打开即用。
- 极速生成: 基于我们的云端。
- 即时预览: 原生音视频同步预览。
立即在线试用 LTX-2 (点击开始生成)。
选项 2:本地 ComfyUI 设置(面向开发者)
如果您更喜欢在本地运行,请遵循以下步骤:
- 安装自定义节点: 在 Manager 中搜索
ComfyUI-LTXVideo。 - 下载权重: 从 Hugging Face 获取
ltx-video-2b-v0.9.safetensors(FP8 版本)。 - 加载工作流: 构建连接 LTX Loader 和 Sampler 的标准工作流。
- 开始生成: 将帧数设置为 97(约 4 秒)并享受创作。
专家提示: 本地设置通常涉及复杂的 Python 依赖问题。如果您遇到报错,建议切换到我们的在线工具以获得无缝体验。
LTX-2 提示词工程技巧
获得好结果需要特定的提示词策略。LTX-2 既理解视觉线索也理解听觉线索。
1. 音视提示词 (Audio-Visual Prompts)
在您的视觉提示词中描述声音:
- 提示词: "A cinematic shot of a thunderstorm, lightning strikes a tree, loud thunder crack, rain pouring sound."(雷暴的电影镜头,闪电击中树木,巨大的雷声,倾盆大雨声。)
- 结果: 模型会将闪光的瞬间与雷声的峰值同步。
2. 运镜控制
使用这些词来指导镜头:
LTX Video camera control prompts: "Camera pan right" (镜头右移), "Slow zoom in" (缓慢推近), "Drone shot" (无人机镜头), "Low angle" (低角度)。- 示例: "Cinematic drone shot flying over a cyberpunk city, neon lights, fog, 4k, highly detailed, electronic synthesizer music background."
3. 负面提示词列表
为了避免快速模型常见的“面部融化”效应,请使用此 LTX Video 负面提示词列表:
"Blurry, distorted, morphing, jittery, watermarks, text, bad anatomy, static, frozen, silence, muted."

常见问题:故障排除与优化
问:我本地生成的画面全是黑屏。
答:这通常是因为使用了错误的 VAE dtype。如果您的 GPU 支持(RTX 30/40 系列),请确保 VAE 设置为 bfloat16;如果是旧卡,请设为 float32。
问:LTX-2 设置 720p 会导致电脑死机。
答:在您的 ComfyUI bat 启动文件中启用 --lowvram。此外,确保您的“帧数 (frame count)”遵循 (8 * n) + 1 公式(例如 97, 121),以获得最佳的张量对齐。
问:我可以商用吗? 答:可以!如果您的年收入低于 1000 万美元,LTX-2 社区许可 允许完全的商业用途。
结语
Lightricks LTX-2 是开源 AI 的一个关键时刻。这是我们第一次拥有一个集 速度、音频 和 易用性 于一体的模型。
虽然它在像素级的连贯性上可能无法击败 Wan 2.1,但生成 同步音视频片段 的能力是革命性的。对于大多数创作者来说,LTX-2 是终于将声音带入 AI 视频派对的工具。

'Seedance 1.5 Pro 评测:字节跳动打造的完美口型音视双绝之作'
'继 LTX-2 之后,Seedance 1.5 Pro 登场。原生音视联合生成、精准口型同步,现在即可在线体验其复杂的运镜控制。'

Kling 3.0 正式发布:功能、定价与使用权限的终极指南
Kling 3.0 来了!探索这款集成了4K输出、15-second Burst Mode 和电影级视觉特效的全新创意引擎。立即了解如何使用。

实测 Kling 3.0 Omni:原生15秒生成、音画同步与 Gen-4.5 的终极对决
Kling 3.0 Omni 会是 Runway Gen-4.5 的杀手吗?我花了24小时深度测试了其原生15秒生成、口型同步精度和多机位控制功能。这里是最终结论。

Kimi k2.5 发布:Kling 2.6 视频工作流的最佳拍档
Kimi k2.5 正式发布,具备原生视频理解能力和 256k 上下文窗口。了解如何将其与 Kling 2.6 结合,实现 AI 视频生产全链路的自动化。

Z-Image Base vs Turbo:掌握 Kling 2.6 视频中的中文文本渲染
了解如何使用 Z-Image Base 和 Turbo 模型解决 Kling 2.6 视频中的中文文本渲染问题。适用于商业和艺术场景的完整工作流指南。

'打破英伟达垄断:GLM-Image 与华为昇腾芯片如何登顶全球 AI 榜单'
'1月14日,完全基于华为昇腾芯片和 MindSpore 框架训练的国产模型 GLM-Image 登顶 Hugging Face Trending 榜首。这标志着全球开源 AI 替代方案的关键时刻。'

'Z-Image Turbo 指南:在 ComfyUI 中运行阿里的 6B 性能怪兽 (对比 FLUX)'
'忘掉 24GB 显存吧。阿里的 Z-Image Turbo (6B) 仅需 8 步即可提供照片级的画质和完美的中文文字渲染。这是您的完整 ComfyUI 工作流指南。'

Google Veo 3.1 深度评测:4K 原生画质与角色一致性的革命
Google Veo 3.1 带来了原生 4K 上变换、9:16 竖屏视频以及身份一致性。此外,本文还将介绍泄露的 Veo 3.2 模型代码。