project
LTX-2.3 - Lightricks 开源的最新一代视频生成模型
LTX-2.3 是以色列 AI 公司 Lightricks 开源的最新一代视频生成模型,采用 Diffusion Transformer 架构,拥有 220 亿参数。模型支持文本、图像、音频三种输入...
LTX-2.3是什么
LTX-2.3 是以色列 AI 公司 Lightricks 开源的最新一代视频生成模型,采用 Diffusion Transformer 架构,拥有 220 亿参数。模型支持文本、图像、音频三种输入方式生成视频,最高可输出 4K 分辨率,并原生支持 9:16 竖屏格式和 24/48FPS 帧率选择。相比前代,LTX-2.3 通过全新训练的 VAE 架构显著提升了画面细节锐度,解决了高分辨率下纹理模糊的问题,同时新增原生音频生成功能,实现音视频同步输出。模型提供 7 个生成端点,单次最长可生成 20 秒视频,并支持 LoRA 微调。
LTX-2.3的主要功能
-
多模态视频生成:支持 text-to-video(文本生视频)、image-to-video(图像生视频)、audio-to-video(音频生视频)三种核心生成方式,满足不同创作需求。
-
原生竖屏支持:新增 9:16 竖屏格式(最高 1080×1920),直接适配短视频平台和社交媒体内容创作。
-
音视频同步生成:新增原生音频生成功能,可同步输出环境音、音效和对话,也可通过音频输入驱动视频画面生成。
-
灵活帧率选择:支持 24FPS 电影感和 48FPS 流畅运动两种帧率模式。
-
视频延展与重拍:提供 extend-video(视频延长)和 retake-video(片段重生成)功能,单次最长生成 20 秒,可通过延展进一步延长。
-
快速生成模式:针对效率场景提供 text-to-video fast 和 image-to-video fast 加速版本。
-
高分辨率输出:支持最高 4K 分辨率,通过全新 VAE 架构实现更锐利的画面细节和纹理表现。
-
LoRA 微调支持:创作者可在本地进行 LoRA 适配器训练,不到一小时即可完成定制化模型微调。
-
配套超分工具:提供 2x/1.5x 空间超分和 2x 帧率提升的后期处理模型,优化最终输出质量。
-
本地桌面编辑器:同步推出 LTX Desktop 开源视频编辑器,基于 LTX-2.3 引擎,完全本地运行无需云端。
LTX-2.3的技术原理
-
DiT 扩散Transformer架构:基于 Diffusion Transformer 架构,将扩散模型与 Transformer 结合,通过迭代去噪过程生成高质量视频,拥有约 220 亿参数规模。
-
全新VAE变分自编码器:重新训练的 Variational Autoencoder 大幅改善编码-解码质量,显著提升画面锐度、纹理细节和面部特征清晰度,解决前代高分辨率下细节模糊问题。
-
时空联合建模:采用时空分离的注意力机制处理视频数据,同时建模空间维度的画面内容和时序维度的运动变化,确保生成视频的时序连贯性。
-
原生音频生成模块:集成音频生成子网络,实现音视频端到端同步生成,支持从音频输入驱动视觉内容生成,确保声画同步。
-
多模态条件注入:通过不同的条件编码器将文本、图像、音频三种模态输入统一映射到潜在空间,实现灵活的多模态控制。
-
蒸馏加速版本:提供 distilled 蒸馏版模型,通过知识蒸馏技术压缩模型规模,在保持质量的同时提升推理速度。
-
LoRA低秩适配:支持 Low-Rank Adaptation 技术,允许用户在预训练模型基础上快速注入特定风格或概念,实现低成本定制化。
-
超分辨率后处理:配套独立的超分模型,采用空间上采样(2x/1.5x)和帧率插值(2x)技术,对生成视频进行二次优化。
LTX-2.3的项目地址
- 项目官网:https://ltx.io/model/ltx-2-3
-
Hugging Face:https://huggingface.co/Lightricks/LTX-2.3
- arXiv技术论文:https://arxiv.org/pdf/2601.03233
LTX-2.3的应用场景
-
短视频与社交媒体内容:原生 9:16 竖屏支持和 24/48FPS 帧率选择,完美适配抖音、TikTok、Instagram Reels 等平台的内容创作需求。
-
广告与营销视频:快速生成产品展示、品牌宣传片,支持图像到视频的转换,可将静态产品图转化为动态广告素材。
-
影视预演与概念设计:导演和制片方可用文本快速生成镜头预览,验证创意概念后再投入正式拍摄,降低前期成本。
-
游戏与动画制作:生成游戏过场动画、角色动作参考,或作为动画制作的初版素材,加速内容生产流程。
-
音乐MV与音视频创作:audio-to-video 功能支持用音频驱动画面生成,适合音乐人快速制作歌词版 MV 或视觉化音轨。
-
教育与培训内容:生成教学演示视频、操作步骤可视化,将静态教材转化为动态讲解内容。