project
Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架
Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数,通过 Test-Time Training(TTT)技术,在观看视频流的过...
Spatial-TTT是什么
Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数,通过 Test-Time Training(TTT)技术,在观看视频流的过程中持续更新内部空间记忆,实现对长达 120 分钟视频的空间推理。在 VSI-Bench、MindCube-Tiny 等多个基准上,表现超过 GPT-5、Gemini-3-pro 等闭源大模型,峰值显存占用比行业领先方案节省超 40%。
Spatial-TTT的主要功能
-
流式空间记忆维护:将视频流分块输入,在线更新模型参数(fast weights),持续累积 3D 空间证据,无需一次性加载全段视频。
-
长时程空间推理:支持相对/绝对距离估计、物体计数与大小判断、房间尺寸感知、方向识别、路径规划与外观顺序推理等任务。
-
超长视频处理:可稳定处理 10 分钟至 120 分钟的连续视频流,在 VSI-SUPER 长期记忆基准上保持性能不衰减。
-
高效推理:1024 帧输入下峰值显存仅 11.9GB,理论计算量 799.4 TFLOPs,显著低于同类大模型。
微信关注回复 “开源”,加入AI开源项目交流群
Spatial-TTT的技术原理
- 混合式 TTT 架构:研究团队以 3:1 比例在解码器中交错插入 TTT 层与标准自注意力锚定层。75% 的 TTT 层负责将长程空间信息写入快速权重,实现线性复杂度的记忆扩展;25% 的全注意力层保留预训练模型的语义理解与跨模态对齐能力,避免纯 TTT 结构破坏原有视觉-语言能力。
- 空间预测机制:传统 TTT 使用逐点线性投影生成 Q
/K/V,忽略视觉 token 的局部几何结构。Spatial-TTT 在 TTT 分支中引入轻量级 3D 时空卷积,使快速权重学习的是时空上下文到时空上下文的预测关系,非孤立 token 的映射,稳定捕捉几何对应、视角变化与时间连续性。 - 稠密场景描述监督与渐进训练:现有空间智能数据多为稀疏局部问答,难以驱动快速权重学习全局更新。研究团队构建了覆盖全局语境、物体类别与数量、空间关系的稠密 3D 场景描述数据,采用两阶段空间感知渐进训练:第一阶段通过稠密描述学习”记住整个空间”,形成全局 3D 意识;第二阶段用数百万条空间 VQA 数据强化流式推理能力。
如何使用Spatial-TTT
-
环境准备:访问 GitHub 仓库(https://github.com/THU-SI/Spatial-TTT/)克隆代码,配置 Python 环境与依赖。
-
模型加载:加载预训练的 Spatial-TTT-2B 权重,初始化 TTT 快速权重。
-
输入视频流:将长视频切分为连续 chunk,逐块输入模型;每处理完一个 chunk,模型自动更新内部空间状态。
-
空间问答:输入自然语言空间问题(如”从红色蜡烛出发面向窗户,如何走到门口”),模型基于累积的空间记忆生成答案。
-
扩展应用:可接入机器人、自动驾驶或 AR 设备的实时视频流,实现持续空间感知。
Spatial-TTT的核心优势
-
小参数超越大模型:2B 参数在多项空间基准上击败 GPT-5、Gemini-3-pro 等闭源巨头,MindCube-Tiny 准确率领先 Gemini-3-pro 12 个百分点。
-
线性扩展性:通过 fast weights 在线更新,显存与计算量随视频长度线性增长,避免传统长上下文模型的平方级复杂度爆炸。
-
空间记忆而非内容堆积:不依赖无限膨胀的上下文窗口,而是将观察转化为可更新、修正和调用的内部空间状态,更适合物理 Agent 长期运行。
-
显存效率显著:1024 帧场景下显存占用 11.9GB,较行业领先方案(21.2GB)降低超 40%,且带显式几何编码器的对比模型在同等帧数下已无法运行。
Spatial-TTT的项目地址
- 项目官网:https://liuff19.github.io/Spatial-TTT/
- GitHub仓库:https://github.com/THU-SI/Spatial-TTT
- HuggingFace模型库:https://huggingface.co/collections/THU-SI/spatial-ttt
- arXiv技术论文:https://arxiv.org/pdf/2603.12255
Spatial-TTT的同类竞品对比
| 对比维度 | Spatial-TTT | Gemini-3-pro |
|---|---|---|
| 参数规模 | 2B | 闭源,未公开 |
| 模型性质 | 开源(清华/腾讯混元/NTU) | 闭源(Google) |
| 核心机制 | TTT 快速权重 + 3D 时空卷积 + 混合注意力 | 长上下文 + 多模态预训练 |
| VSI-Bench 平均分 | 64.4 | 56.0 |
| MindCube-Tiny 准确率 | 76.2% | 63.9% |
| 120分钟视频处理 | 稳定运行(Recall 30.0 / Count 38.4) | 未公开支持,长视频易性能崩塌或 OOM |
| 1024帧峰值显存 | 11.9GB | 21.2GB+ |
| 1024帧计算量 | 799.4 TFLOPs | 1403.1 TFLOPs |
| 空间记忆方式 | 在线更新参数化空间状态 | 依赖长上下文窗口缓存 |
Spatial-TTT的应用场景
-
机器人导航:服务机器人或家用机器人在房间中持续移动时,实时更新空间地图,回答”沙发相对于窗户的位置”或规划到达目标点的路径。
-
自动驾驶:车辆在长时程行驶中持续积累道路、路口与障碍物的空间关系,支持复杂的方向判断与距离估计。
-
AR/VR 空间交互:头显设备在用户使用过程中持续理解环境布局,实现虚实融合的空间锚定与物体关系查询。
-
智能监控与安防:对长时间视频流进行在线空间分析,追踪物体出现顺序、计数与位置变化,无需离线全量处理。