Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架 - AiBoss

Spatial-TTT是什么

Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数，通过 Test-Time Training（TTT）技术，在观看视频流的过程中持续更新内部空间记忆，实现对长达 120 分钟视频的空间推理。在 VSI-Bench、MindCube-Tiny 等多个基准上，表现超过 GPT-5、Gemini-3-pro 等闭源大模型，峰值显存占用比行业领先方案节省超 40%。

Spatial-TTT的主要功能

流式空间记忆维护：将视频流分块输入，在线更新模型参数（fast weights），持续累积 3D 空间证据，无需一次性加载全段视频。
长时程空间推理：支持相对/绝对距离估计、物体计数与大小判断、房间尺寸感知、方向识别、路径规划与外观顺序推理等任务。
超长视频处理：可稳定处理 10 分钟至 120 分钟的连续视频流，在 VSI-SUPER 长期记忆基准上保持性能不衰减。
高效推理：1024 帧输入下峰值显存仅 11.9GB，理论计算量 799.4 TFLOPs，显著低于同类大模型。

微信关注回复 “开源”，加入AI开源项目交流群

Spatial-TTT的技术原理

混合式 TTT 架构：研究团队以 3:1 比例在解码器中交错插入 TTT 层与标准自注意力锚定层。75% 的 TTT 层负责将长程空间信息写入快速权重，实现线性复杂度的记忆扩展；25% 的全注意力层保留预训练模型的语义理解与跨模态对齐能力，避免纯 TTT 结构破坏原有视觉-语言能力。
空间预测机制：传统 TTT 使用逐点线性投影生成 Q
/K/V，忽略视觉 token 的局部几何结构。Spatial-TTT 在 TTT 分支中引入轻量级 3D 时空卷积，使快速权重学习的是时空上下文到时空上下文的预测关系，非孤立 token 的映射，稳定捕捉几何对应、视角变化与时间连续性。
稠密场景描述监督与渐进训练：现有空间智能数据多为稀疏局部问答，难以驱动快速权重学习全局更新。研究团队构建了覆盖全局语境、物体类别与数量、空间关系的稠密 3D 场景描述数据，采用两阶段空间感知渐进训练：第一阶段通过稠密描述学习”记住整个空间”，形成全局 3D 意识；第二阶段用数百万条空间 VQA 数据强化流式推理能力。

如何使用Spatial-TTT

环境准备：访问 GitHub 仓库（https://github.com/THU-SI/Spatial-TTT/）克隆代码，配置 Python 环境与依赖。
模型加载：加载预训练的 Spatial-TTT-2B 权重，初始化 TTT 快速权重。
输入视频流：将长视频切分为连续 chunk，逐块输入模型；每处理完一个 chunk，模型自动更新内部空间状态。
空间问答：输入自然语言空间问题（如”从红色蜡烛出发面向窗户，如何走到门口”），模型基于累积的空间记忆生成答案。
扩展应用：可接入机器人、自动驾驶或 AR 设备的实时视频流，实现持续空间感知。

Spatial-TTT的核心优势

小参数超越大模型：2B 参数在多项空间基准上击败 GPT-5、Gemini-3-pro 等闭源巨头，MindCube-Tiny 准确率领先 Gemini-3-pro 12 个百分点。
线性扩展性：通过 fast weights 在线更新，显存与计算量随视频长度线性增长，避免传统长上下文模型的平方级复杂度爆炸。
空间记忆而非内容堆积：不依赖无限膨胀的上下文窗口，而是将观察转化为可更新、修正和调用的内部空间状态，更适合物理 Agent 长期运行。
显存效率显著：1024 帧场景下显存占用 11.9GB，较行业领先方案（21.2GB）降低超 40%，且带显式几何编码器的对比模型在同等帧数下已无法运行。

Spatial-TTT的项目地址

项目官网：https://liuff19.github.io/Spatial-TTT/
GitHub仓库：https://github.com/THU-SI/Spatial-TTT
HuggingFace模型库：https://huggingface.co/collections/THU-SI/spatial-ttt
arXiv技术论文：https://arxiv.org/pdf/2603.12255

Spatial-TTT的同类竞品对比

对比维度	Spatial-TTT	Gemini-3-pro
参数规模	2B	闭源，未公开
模型性质	开源（清华/腾讯混元/NTU）	闭源（Google）
核心机制	TTT 快速权重 + 3D 时空卷积 + 混合注意力	长上下文 + 多模态预训练
VSI-Bench 平均分	64.4	56.0
MindCube-Tiny 准确率	76.2%	63.9%
120分钟视频处理	稳定运行（Recall 30.0 / Count 38.4）	未公开支持，长视频易性能崩塌或 OOM
1024帧峰值显存	11.9GB	21.2GB+
1024帧计算量	799.4 TFLOPs	1403.1 TFLOPs
空间记忆方式	在线更新参数化空间状态	依赖长上下文窗口缓存

Spatial-TTT的应用场景

机器人导航：服务机器人或家用机器人在房间中持续移动时，实时更新空间地图，回答”沙发相对于窗户的位置”或规划到达目标点的路径。
自动驾驶：车辆在长时程行驶中持续积累道路、路口与障碍物的空间关系，支持复杂的方向判断与距离估计。
AR/VR 空间交互：头显设备在用户使用过程中持续理解环境布局，实现虚实融合的空间锚定与物体关系查询。
智能监控与安防：对长时间视频流进行在线空间分析，追踪物体出现顺序、计数与位置变化，无需离线全量处理。

Spatial-TTT是什么

Spatial-TTT的主要功能

流式空间记忆维护：将视频流分块输入，在线更新模型参数（fast weights），持续累积 3D 空间证据，无需一次性加载全段视频。

长时程空间推理：支持相对/绝对距离估计、物体计数与大小判断、房间尺寸感知、方向识别、路径规划与外观顺序推理等任务。

超长视频处理：可稳定处理 10 分钟至 120 分钟的连续视频流，在 VSI-SUPER 长期记忆基准上保持性能不衰减。

高效推理：1024 帧输入下峰值显存仅 11.9GB，理论计算量 799.4 TFLOPs，显著低于同类大模型。

微信关注回复 “开源”，加入AI开源项目交流群

Spatial-TTT的技术原理

混合式 TTT 架构：研究团队以 3:1 比例在解码器中交错插入 TTT 层与标准自注意力锚定层。75% 的 TTT 层负责将长程空间信息写入快速权重，实现线性复杂度的记忆扩展；25% 的全注意力层保留预训练模型的语义理解与跨模态对齐能力，避免纯 TTT 结构破坏原有视觉-语言能力。

空间预测机制：传统 TTT 使用逐点线性投影生成 Q
/K/V，忽略视觉 token 的局部几何结构。Spatial-TTT 在 TTT 分支中引入轻量级 3D 时空卷积，使快速权重学习的是时空上下文到时空上下文的预测关系，非孤立 token 的映射，稳定捕捉几何对应、视角变化与时间连续性。

稠密场景描述监督与渐进训练：现有空间智能数据多为稀疏局部问答，难以驱动快速权重学习全局更新。研究团队构建了覆盖全局语境、物体类别与数量、空间关系的稠密 3D 场景描述数据，采用两阶段空间感知渐进训练：第一阶段通过稠密描述学习”记住整个空间”，形成全局 3D 意识；第二阶段用数百万条空间 VQA 数据强化流式推理能力。

如何使用Spatial-TTT

环境准备：访问 GitHub 仓库（https://github.com/THU-SI/Spatial-TTT/）克隆代码，配置 Python 环境与依赖。

模型加载：加载预训练的 Spatial-TTT-2B 权重，初始化 TTT 快速权重。

输入视频流：将长视频切分为连续 chunk，逐块输入模型；每处理完一个 chunk，模型自动更新内部空间状态。

空间问答：输入自然语言空间问题（如”从红色蜡烛出发面向窗户，如何走到门口”），模型基于累积的空间记忆生成答案。

扩展应用：可接入机器人、自动驾驶或 AR 设备的实时视频流，实现持续空间感知。

Spatial-TTT的核心优势

小参数超越大模型：2B 参数在多项空间基准上击败 GPT-5、Gemini-3-pro 等闭源巨头，MindCube-Tiny 准确率领先 Gemini-3-pro 12 个百分点。

线性扩展性：通过 fast weights 在线更新，显存与计算量随视频长度线性增长，避免传统长上下文模型的平方级复杂度爆炸。

空间记忆而非内容堆积：不依赖无限膨胀的上下文窗口，而是将观察转化为可更新、修正和调用的内部空间状态，更适合物理 Agent 长期运行。

显存效率显著：1024 帧场景下显存占用 11.9GB，较行业领先方案（21.2GB）降低超 40%，且带显式几何编码器的对比模型在同等帧数下已无法运行。

Spatial-TTT的同类竞品对比

对比维度

Spatial-TTT

Gemini-3-pro

参数规模

闭源，未公开

模型性质

开源（清华/腾讯混元/NTU）

闭源（Google）

核心机制

TTT 快速权重 + 3D 时空卷积 + 混合注意力

长上下文 + 多模态预训练

VSI-Bench 平均分

64.4

56.0

MindCube-Tiny 准确率

76.2%

63.9%

120分钟视频处理

稳定运行（Recall 30.0 / Count 38.4）

未公开支持，长视频易性能崩塌或 OOM

1024帧峰值显存

11.9GB

21.2GB+

1024帧计算量

799.4 TFLOPs

1403.1 TFLOPs

空间记忆方式

在线更新参数化空间状态

依赖长上下文窗口缓存

Spatial-TTT的应用场景

机器人导航：服务机器人或家用机器人在房间中持续移动时，实时更新空间地图，回答”沙发相对于窗户的位置”或规划到达目标点的路径。

自动驾驶：车辆在长时程行驶中持续积累道路、路口与障碍物的空间关系，支持复杂的方向判断与距离估计。

AR/VR 空间交互：头显设备在用户使用过程中持续理解环境布局，实现虚实融合的空间锚定与物体关系查询。

智能监控与安防：对长时间视频流进行在线空间分析，追踪物体出现顺序、计数与位置变化，无需离线全量处理。

全部分类

Spatial-TTT是什么

Spatial-TTT的主要功能

Spatial-TTT的技术原理

如何使用Spatial-TTT

Spatial-TTT的核心优势

Spatial-TTT的项目地址

Spatial-TTT的同类竞品对比

Spatial-TTT的应用场景

Spatial-TTT是什么

Spatial-TTT的主要功能

Spatial-TTT的技术原理

如何使用Spatial-TTT

Spatial-TTT的核心优势

Spatial-TTT的项目地址

Spatial-TTT的同类竞品对比

Spatial-TTT的应用场景