AiBoss站跨市场 · 多语言 AI 工具发现站

project2026年4月30日

SenseNova U1 - 商汤日日新推出的原生统一多模态模型

SenseNova U1是商汤日日新基于NEO-Unify架构推出的原生统一多模态模型，在单一架构内实现理解、推理与生成。模型摒弃传统视觉编码器和VAE，构建统一表征空间...

SenseNova U1是什么

SenseNova U1是商汤日日新基于NEO-Unify架构推出的原生统一多模态模型，在单一架构内实现理解、推理与生成。模型摒弃传统视觉编码器和VAE，构建统一表征空间，开源Lite版包含8B-MoT稠密模型与A3B-MoE模型。在图像理解、生成、编辑及视觉推理等基准上达同量级开源SOTA，8B版本可比肩部分商业闭源模型，且推理延迟显著低于同类竞品。

SenseNova U1的主要功能

多模态理解： 支持OCR、文档解析、图表问答、视觉问答及多图推理。
图像生成： 可生成写实、艺术及知识密集型图像，支持复杂信息图合成。
图像编辑： 实现风格迁移、目标移除、构图控制等精准编辑操作。
交错生成： 支持视觉与语言内容交错输出，实现图文混合创作。
统一推理： 具备跨模态数学、常识与科学推理能力。

SenseNova U1的技术原理

NEO-Unify原生架构： 从第一性原理出发，彻底去除视觉编码器与VAE，消除潜在空间瓶颈。
统一表征空间： 将像素与文本信息在同一空间内端到端建模，避免模态间转译损耗。
原生MoT机制： 采用Mixture of Tokens扩展架构，实现高效跨模态计算与参数利用。
端到端训练： 图像与语言作为统一复合体直接输入，在同一计算流程中完成理解与生成。

如何使用SenseNova U1

访问仓库： 访问GitHub仓库 https://github.com/OpenSenseNova/SenseNova-U1 浏览项目文档。
下载权重： 访问HuggingFace模型页 https://huggingface.co/collections/sensenova/sensenova-u1 下载对应模型。
配置环境： 根据README安装依赖并准备GPU推理环境。
加载模型： 将SenseNova-U1-8B-MoT或A3B-MoT模型加载至本地。
执行任务： 输入文本或图像提示，运行多模态理解、生成或编辑任务。

SenseNova U1的关键信息和使用要求

开发团队： 商汤科技（SenseTime）
开源协议： 开源（GitHub / HuggingFace 可获取）
模型规格： SenseNova-U1-8B-MoT（稠密）、SenseNova-U1-A3B-MoT（MoE）
硬件要求： 需GPU支持，具体显存要求参考官方文档
使用门槛： 需具备基础模型部署与推理环境配置能力

SenseNova U1的核心优势

架构统一： 单一模型同时覆盖理解与生成，无需多模块拼接与适配器转译。
效率突出： 去除VE/VAE后信息流转更直接，推理延迟显著低于同类开源及商业模型。
性能领先： 8B轻量版即达同量级开源SOTA，比肩部分大型商业闭源模型。
空间智能： 在3D推理、几何理解与导航等复杂空间任务上表现优异。
信息图生成： 模型对复杂排版与文字渲染具备商业级控制力与生成质量。

SenseNova U1的项目地址

GitHub仓库：https://github.com/OpenSenseNova/SenseNova-U1
HuggingFace模型库：https://huggingface.co/collections/sensenova/sensenova-u1

SenseNova U1的同类竞品对比

对比维度	SenseNova U1	Qwen3VL	Janus
开发团队	商汤科技	阿里云	DeepSeek
架构特点	NEO-Unify原生统一，无VE/VAE	视觉编码器+LLM拼接	解耦视觉编码统一架构
模型规模	8B / A3B MoE	8B / 30B-A3B MoE等	1.3B / 7B
理解能力	OCR/VQA/空间推理/文档解析	强视觉理解，OCR/VQA领先	多模态理解与推理
生成能力	图像生成+编辑+信息图+交错生成	主要聚焦理解，生成需独立模型	图像生成与编辑
开源状态	开源（Lite版）	开源	开源

SenseNova U1的应用场景

智能文档解析： 自动识别并理解扫描件、PDF中的文字、表格与图表，实现结构化信息提取与问答。
营销海报生成： 根据文字描述自动生成高质量电商海报、信息图，精准控制排版与文字渲染。
图像精准编辑： 支持风格迁移、目标移除、构图调整等操作，实现”所想即所得”的图像修改。
多模态内容创作： 支持图文交错生成，自动产出图文混排的长文、教程与社交媒体内容。
机器人具身智能： 作为机器人”大脑”，在单一模型闭环内完成环境感知、逻辑推演到任务执行。