快讯
DeepSeek 公布多模态模型技术报告
DeepSeek 在 GitHub 发布多模态大模型并公开技术报告,提出「基于视觉原语的思考」框架,将点、边界框等空间标记提升为推理「基本思维单元」,使模型具备精确空间指代与推演能力,突破传统链式思维在复杂空间参照任务中的瓶颈。模型架构紧凑、视觉标记效率高,在计数与空间推理基准测试中可与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型匹敌。
DeepSeek 在 GitHub 发布多模态大模型并公开技术报告,提出「基于视觉原语的思考」框架,将点、边界框等空间标记提升为推理「基本思维单元」,使模型具备精确空间指代与推演能力,突破传统链式思维在复杂空间参照任务中的瓶颈。模型架构紧凑、视觉标记效率高,在计数与空间推理基准测试中可与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型匹敌。