'LTX-2 (LTX Video) 评测:首个开源的“音视同步”基础模型'
Reviews

'LTX-2 (LTX Video) 评测:首个开源的“音视同步”基础模型'

Kling AI

正当我们以为混元 (Hunyuan) 和 Wan 2.1 之间的 AI 视频大战即将平息时,Lightricks 投下了一枚重磅炸弹。LTX-2(原名 LTX Video)正式开放权重开源,它绝不仅仅是另一个视频生成器。

它是世界上第一个能够进行 联合音视频生成 (Joint Audiovisual Generation) 的开源基础模型——意味着它能在一次推理中同时生成视频和同步的音频。

但对于本地用户来说,真正的头条新闻是 效率。与极度消耗显存的混元视频不同,LTX-2 可以舒适地在 16GB 消费级显卡上运行(使用 NVFP8 量化),其接近实时的生成速度让其他模型感觉像是在慢动作渲染。

如果您正在寻找 2026 年既能生成声音又不会烧显卡的开源 AI 视频生成器,就是它了。在本指南中,我们将深入探讨其规格,对比 LTX-2 vs 混元视频,并教您如何立即上手使用。

核心创新:联合音视频生成

Lightricks 解决了一个巨大的痛点:声音设计。 基于新颖的 DiT (Diffusion Transformer) 架构,LTX-2 理解画面运动与声音之间的关联。

  • 工作原理: 当您输入“玻璃破碎”的提示词时,模型会瞬间生成碎片飞溅的画面 以及 同步的玻璃碎裂声。
  • 意义所在: 不再需要寻找素材库音效,也不用在后期制作中费力对齐音频。一切都是原生生成的。

关键规格

  • 分辨率: 原生支持 4K(本地显卡优化为 720p)。
  • 帧率: 最高 50 FPS 以实现流畅运动(标准为 24 FPS)。
  • 音频: 原生同步音频生成(48kHz 立体声)。
  • 许可: 免费商用(适用于年收入低于 1000 万美元的实体,即 <$10M)。

硬件需求:你能运行它吗?

这是 LTX-2 大放异彩的地方。虽然 Run LTX Video locally 24GB VRAM 是 4K 生成的理想场景,但该模型使用 NVFP8 量化 完美适配了中端显卡。

720p (4秒) 最低配置

  • 显卡 (GPU): NVIDIA RTX 3080 / 4070 Ti / 4080 (12GB - 16GB 显存)。
  • 内存 (RAM): 32GB 系统内存。
  • 存储: 50GB SSD 空间。

对于那些问“Run LTX Video locally 16GB VRAM”的人——是的,绝对可以。 通过在 ComfyUI 中启用 FP8 文本编码器和模型权重,您可以生成 720p / 24fps / 4秒 的片段而不会遇到 OOM(显存不足)错误。

LTX-2 (FP8)、混元和 Wan 2.1 之间的显存占用对比

LTX-2 vs 混元视频:巅峰对决

我们对这两款模型进行了广泛测试。以下是 2026 年的评测结论。

特性LTX-2 (Lightricks)混元视频 (Hunyuan)Wan 2.1
音频原生同步 (胜出)
速度极快 (FP8)中等慢 (高质量)
显存16GB 友好建议 24GB+48GB+ (企业级)
连贯性良好 (短片段)优秀业界最佳
许可社区许可 (<$10M)开源开源

结论: 如果您制作社交媒体内容、音乐可视化或 声音 至关重要的场景,请选择 LTX-2。如果您需要好莱坞级别的视觉连贯性且不在乎音频,请选择 混元Wan 2.1

教程:如何使用 LTX-2 (在线 vs 本地)

您有两种方式运行此模型。

选项 1:最简单的方式(推荐)

您不需要一张 2000 美元的显卡来使用 LTX-2。我们已将完整模型直接集成到了我们的平台中。

  • 无需安装: 打开即用。
  • 极速生成: 基于我们的云端。
  • 即时预览: 原生音视频同步预览。

立即在线试用 LTX-2 (点击开始生成)。

选项 2:本地 ComfyUI 设置(面向开发者)

如果您更喜欢在本地运行,请遵循以下步骤:

  1. 安装自定义节点: 在 Manager 中搜索 ComfyUI-LTXVideo
  2. 下载权重: 从 Hugging Face 获取 ltx-video-2b-v0.9.safetensors (FP8 版本)。
  3. 加载工作流: 构建连接 LTX Loader 和 Sampler 的标准工作流。
  4. 开始生成: 将帧数设置为 97(约 4 秒)并享受创作。

专家提示: 本地设置通常涉及复杂的 Python 依赖问题。如果您遇到报错,建议切换到我们的在线工具以获得无缝体验。

LTX-2 提示词工程技巧

获得好结果需要特定的提示词策略。LTX-2 既理解视觉线索也理解听觉线索。

1. 音视提示词 (Audio-Visual Prompts)

在您的视觉提示词中描述声音:

  • 提示词: "A cinematic shot of a thunderstorm, lightning strikes a tree, loud thunder crack, rain pouring sound."(雷暴的电影镜头,闪电击中树木,巨大的雷声,倾盆大雨声。)
  • 结果: 模型会将闪光的瞬间与雷声的峰值同步。

2. 运镜控制

使用这些词来指导镜头:

  • LTX Video camera control prompts: "Camera pan right" (镜头右移), "Slow zoom in" (缓慢推近), "Drone shot" (无人机镜头), "Low angle" (低角度)。
  • 示例: "Cinematic drone shot flying over a cyberpunk city, neon lights, fog, 4k, highly detailed, electronic synthesizer music background."

3. 负面提示词列表

为了避免快速模型常见的“面部融化”效应,请使用此 LTX Video 负面提示词列表

"Blurry, distorted, morphing, jittery, watermarks, text, bad anatomy, static, frozen, silence, muted."

展示音视频设置的 LTX Video ComfyUI 节点图示例

常见问题:故障排除与优化

问:我本地生成的画面全是黑屏。 答:这通常是因为使用了错误的 VAE dtype。如果您的 GPU 支持(RTX 30/40 系列),请确保 VAE 设置为 bfloat16;如果是旧卡,请设为 float32

问:LTX-2 设置 720p 会导致电脑死机。 答:在您的 ComfyUI bat 启动文件中启用 --lowvram。此外,确保您的“帧数 (frame count)”遵循 (8 * n) + 1 公式(例如 97, 121),以获得最佳的张量对齐。

问:我可以商用吗? 答:可以!如果您的年收入低于 1000 万美元,LTX-2 社区许可 允许完全的商业用途。

结语

Lightricks LTX-2 是开源 AI 的一个关键时刻。这是我们第一次拥有一个集 速度音频易用性 于一体的模型。

虽然它在像素级的连贯性上可能无法击败 Wan 2.1,但生成 同步音视频片段 的能力是革命性的。对于大多数创作者来说,LTX-2 是终于将声音带入 AI 视频派对的工具。

准备创造魔法了吗?

不要只是阅读。体验Kling 2.6的力量,今天就将您的想法变为现实。

猜你喜欢

'Seedance 1.5 Pro 评测:字节跳动打造的完美口型音视双绝之作'
Reviews'2026-01-27'

'Seedance 1.5 Pro 评测:字节跳动打造的完美口型音视双绝之作'

'继 LTX-2 之后,Seedance 1.5 Pro 登场。原生音视联合生成、精准口型同步,现在即可在线体验其复杂的运镜控制。'

K
Kling AI
Kling 3.0 正式发布:功能、定价与使用权限的终极指南
News & Updates2026-02-05

Kling 3.0 正式发布:功能、定价与使用权限的终极指南

Kling 3.0 来了!探索这款集成了4K输出、15-second Burst Mode 和电影级视觉特效的全新创意引擎。立即了解如何使用。

K
Kling AI Team
实测 Kling 3.0 Omni:原生15秒生成、音画同步与 Gen-4.5 的终极对决
Reviews & Tutorials2026-02-05

实测 Kling 3.0 Omni:原生15秒生成、音画同步与 Gen-4.5 的终极对决

Kling 3.0 Omni 会是 Runway Gen-4.5 的杀手吗?我花了24小时深度测试了其原生15秒生成、口型同步精度和多机位控制功能。这里是最终结论。

K
Kling AI Team
Kimi k2.5 发布:Kling 2.6 视频工作流的最佳拍档
Workflow Guide2026-01-28

Kimi k2.5 发布:Kling 2.6 视频工作流的最佳拍档

Kimi k2.5 正式发布,具备原生视频理解能力和 256k 上下文窗口。了解如何将其与 Kling 2.6 结合,实现 AI 视频生产全链路的自动化。

K
Kling AI
Z-Image Base vs Turbo:掌握 Kling 2.6 视频中的中文文本渲染
2026-01-28

Z-Image Base vs Turbo:掌握 Kling 2.6 视频中的中文文本渲染

了解如何使用 Z-Image Base 和 Turbo 模型解决 Kling 2.6 视频中的中文文本渲染问题。适用于商业和艺术场景的完整工作流指南。

K
Kling 2.6 Team
'打破英伟达垄断:GLM-Image 与华为昇腾芯片如何登顶全球 AI 榜单'
Industry News'2026-01-23'

'打破英伟达垄断:GLM-Image 与华为昇腾芯片如何登顶全球 AI 榜单'

'1月14日,完全基于华为昇腾芯片和 MindSpore 框架训练的国产模型 GLM-Image 登顶 Hugging Face Trending 榜首。这标志着全球开源 AI 替代方案的关键时刻。'

K
Kling AI
'Z-Image Turbo 指南:在 ComfyUI 中运行阿里的 6B 性能怪兽 (对比 FLUX)'
Tutorial'2026-01-23'

'Z-Image Turbo 指南:在 ComfyUI 中运行阿里的 6B 性能怪兽 (对比 FLUX)'

'忘掉 24GB 显存吧。阿里的 Z-Image Turbo (6B) 仅需 8 步即可提供照片级的画质和完美的中文文字渲染。这是您的完整 ComfyUI 工作流指南。'

K
Kling AI
Google Veo 3.1 深度评测:4K 原生画质与角色一致性的革命
News & Review2026-01-20

Google Veo 3.1 深度评测:4K 原生画质与角色一致性的革命

Google Veo 3.1 带来了原生 4K 上变换、9:16 竖屏视频以及身份一致性。此外,本文还将介绍泄露的 Veo 3.2 模型代码。

K
Kling AI
'LTX-2 (LTX Video) 评测:首个开源的“音视同步”基础模型' | Kling Studio 博客 | Kling 2.6 Studio