project
Qwen-Scope - 阿里通义开源的大模型可解释性工具套件
Qwen-Scope 是阿里通义千问团队开源的大模型可解释性工具套件,基于稀疏自编码器(SAE)技术,在 Qwen3/Qwen3.5 系列模型隐藏层提取可解释特征。
Qwen-Scope是什么
Qwen-Scope 是阿里通义千问团队开源的大模型可解释性工具套件,基于稀疏自编码器(SAE)技术,在 Qwen3/Qwen3.5 系列模型隐藏层提取可解释特征。模型能将模型内部复杂的参数运算转化为人类可理解的概念与规律,可用于事后分析,通过特征级干预实现推理控制、数据处理与模型优化,成为连接模型内部与下游开发的实用接口。
Qwen-Scope的主要功能
-
推理定向控制(Steering):无需显式自然语言指令,通过开启或关闭特定 SAE 特征,实现语言、实体、风格的定向修改与 badcase 修复。
-
数据分类与合成:基于少量种子数据发现毒性/安全相关特征,实现零额外训练器的分类;识别未激活特征并定向合成补充样本,覆盖长尾能力。
-
模型训练优化:定位语言混用、重复生成等异常激活特征,在监督微调(SFT)和强化学习(RL)阶段辅助优化模型行为。
-
评测冗余分析:计算不同评测集间的特征激活模式,判断评测集冗余程度与能力覆盖度,指导挑选高覆盖、低成本的测试样本。
Qwen-Scope的技术原理
-
稀疏自编码器(SAE):在 Qwen 各 Transformer 层的残差流中插入 SAE,通过施加稀疏性约束,将高维激活向量分解为稀疏、可解释的特征字典。
-
Top-k 激活与重建:每层单独训练 SAE,编码器将激活映射为过完备潜在表示,仅保留最大的 k 个激活(k=50/100)用于重建,确保特征高度解耦。
-
对比特征识别:构造正负样本集,对比其 SAE 平均激活差异,识别与目标属性(如毒性、中文、古典文风)最相关的特征方向。
-
特征干预公式:在推理时通过 h′ ← h + αd 修改残差流,其中 d 为 SAE 特征方向,α 控制干预强度,正值增强、负值抑制该特征。
如何使用Qwen-Scope
-
访问体验平台:访问 Hugging Face 在线空间。
-
选择模型权重:根据目标模型(如 Qwen3-8B、Qwen3.5-27B)加载对应 SAE 权重。
-
输入提示观察激活:输入提示词,查看 SAE 特征激活热力图与排名。
-
识别目标特征:定位异常或目标特征 ID(如中文特征 6159、古典中文特征 36398)。
-
调整干预强度:设置特征干预系数 α,正向增强或负向抑制特定特征。
-
验证控制效果:对比干预前后模型输出,确认 badcase 修复或风格迁移成功。
-
集成训练流程:将 SAE 信号接入 SFT/RL 损失函数,实现定向模型优化。
Qwen-Scope的关键信息和使用要求
-
发布方:阿里巴巴 / 通义千问团队
-
覆盖模型:Qwen3-1.7B/8B、Qwen3-30B-A3B、Qwen3.5-2B/9B/27B/35B-A3B(共 7 个)
-
模型类型:稠密模型 + 混合专家(MoE)架构
-
SAE 权重:14 组,覆盖全部 Transformer 层
-
训练数据:各模型预训练数据采样 0.5B 词元
-
特征维度:32K / 64K / 80K / 128K
-
表示重构特征数:50 或 100
-
在线体验:Hugging Face、魔搭社区(ModelScope)均已上线
Qwen-Scope的核心优势
-
从”看懂”到”改进”:超越传统事后分析,将可解释性转化为驱动模型进化的核心引擎。
-
零权重修改干预:推理阶段直接操控特征方向,无需微调或更新模型参数即可改变输出行为。
-
数据高效低依赖:仅需少量种子数据(约 200 对)即可发现高判别力特征,分类 F1 可达 0.90+,显著降低标注成本。
-
定向精准优化:针对语言混用、重复生成等低频 badcase 精准定位异常特征,SFT 阶段可将中文混入率从 0.81% 降至 0.22%。
-
评测成本优化:通过特征覆盖度分析识别评测集冗余,帮助挑选高覆盖度样本,降低评测开销。
Qwen-Scope的项目地址
- HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen-scope
- 技术论文:https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf
Qwen-Scope的同类竞品对比
| 对比维度 | Qwen-Scope | Gemma Scope |
|---|---|---|
| 发布方 | 阿里巴巴 / 通义千问 | Google DeepMind |
| 覆盖模型 | Qwen3 / Qwen3.5 系列(7 个模型) | Gemma 2 / 3 系列 |
| 架构支持 | 稠密模型 + MoE | 稠密模型 |
| SAE 架构 | Top-k SAE | JumpReLU SAE |
| 开源规模 | 14 组 SAE 权重 | 400+ SAEs,3000 万+特征 |
| 核心应用 | 推理控制、评测分析、数据合成、训练优化 | 机制解释、安全分析、电路追踪 |
| 数据合成 | 特征驱动合成,数据能效比提升约 15 倍 | 主要依赖传统合成方案 |
| 评测分析 | 支持 benchmark 冗余与覆盖度分析 | 侧重特征可视化与交互探索 |
| 中文支持 | 原生支持,含古典中文等特色风格特征 | 主要面向英文场景 |
| 交互平台 | Hugging Face / 魔搭社区 | Neuronpedia |
Qwen-Scope的应用场景
-
推理控制与修复:修复英文提示下意外混入中文等语言混用问题;实现现代文转古典文言文等风格迁移。
-
安全数据治理:基于特征发现进行多语言毒性内容分类;定向合成安全训练数据,用 4k 合成数据即可接近 120k 真实数据的安全对齐效果。
-
模型训练辅助:SFT 阶段通过 SAE 辅助损失抑制异常激活;RL 阶段通过操控重复相关特征提高异常回复采样频率,加速收敛。
-
评测集优化:分析 GSM8K、MATH、MMLU-Pro 等 benchmark 间的特征重叠矩阵,剔除冗余评测集,提升评测效率。
-
模型可解释性研究:为学术界和工业界提供开源 SAE 基础,支持机制解释、电路追踪、幻觉与偏见根因分析。