快讯
字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表
字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。
字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。