快讯2026年5月3日

DeepSeek 公布多模态模型技术报告

DeepSeek 在 GitHub 发布多模态大模型并公开技术报告，提出「基于视觉原语的思考」框架，将点、边界框等空间标记提升为推理「基本思维单元」，使模型具备精确空间指代与推演能力，突破传统链式思维在复杂空间参照任务中的瓶颈。模型架构紧凑、视觉标记效率高，在计数与空间推理基准测试中可与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型匹敌。

全部分类