project
AngelSlim - 腾讯混元开源的全模态大模型压缩工具包
AngelSlim 是腾讯混元团队自研并开源的全模态大模型压缩工具包,通过量化、投机采样、稀疏化和蒸馏等技术,为大语言模型(LLM)、视觉语言模型(VLM)及语音...
AngelSlim是什么
AngelSlim 是腾讯混元团队自研并开源的全模态大模型压缩工具包,通过量化、投机采样、稀疏化和蒸馏等技术,为大语言模型(LLM)、视觉语言模型(VLM)及语音模型提供高效、易用的压缩与加速解决方案。工具集成了 FP8/INT8/INT4 量化、GPTQ、AWQ 等主流压缩策略,支持一键式调用和端到端部署,训练产出模型可无缝衔接 vLLM、Sglang 等推理框架。AngelSlim 重磅升级投机采样训练框架,首创 Eagle3 架构,首次将投机采样技术拓展至全模态场景,让小模型学会为大模型起草多步候选 token 并由大模型并行验证,实测推理速度最高可提升 1.4-1.9 倍。目前已支持混元、DeepSeek、Qwen 系列等主流模型的压缩优化,开发者可通过 pip install angelslim 快速安装使用。
AngelSlim的主要功能
-
多精度量化压缩:支持 FP8、INT8、INT4 等多种精度量化,集成 GPTQ、AWQ 等主流量化算法,大幅降低模型存储与计算开销。
-
投机采样加速:首创 Eagle3 训练架构,让小模型为大模型起草多步候选 token,大模型并行验证,推理速度最高提升 1.4-1.9 倍。
-
全模态覆盖支持:支持大语言模型(LLM)、视觉语言模型(VLM)、语音模型(ASR/TTS)的压缩与加速,首次实现投机采样在全模态场景的应用。
-
稀疏化与蒸馏:集成结构化/非结构化稀疏、知识蒸馏等技术,进一步压缩模型体积并保留性能。
-
一键式压缩调用:提供高度集成的 API 接口,简化主流压缩算法的调用流程,降低开发者使用门槛。
-
端到端部署对接:训练产出模型可直接用于 vLLM、Sglang 等主流推理框架,实现压缩到部署的无缝衔接。
-
多模型生态兼容:已支持混元(Hunyuan)、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni 等主流开源模型的压缩优化。
AngelSlim的技术原理
-
量化压缩原理:通过将模型权重从高精度浮点数(FP16/FP32)映射到低精度整数(INT8/INT4)或 FP8 格式,减少存储占用和计算量,同时采用 GPTQ(逐层量化优化)和 AWQ(激活感知权重量化)等算法最小化精度损失。
-
投机采样(Speculative Decoding)原理:训练一个小型草稿模型(Draft Model)提前生成多个候选 token,再由大型目标模型(Target Model)一次性并行验证,接受合法 token、拒绝错误 token 并回滚修正,通过”小模型起草+大模型把关”的协作机制突破串行解码瓶颈。
-
Eagle3 架构原理:在标准投机采样基础上引入”前瞻性”训练策略,让草稿模型学习预测未来多步 token 的分布特征,提升候选序列质量,从而增加大模型的接受长度(可达 1.8-3.5 倍),实现更高加速比。
-
知识蒸馏原理:将大模型(教师模型)的输出分布和中间层特征迁移到小模型(学生模型),通过软标签监督和特征对齐,让小模型在压缩体积的同时继承大模型的能力。
-
稀疏化原理:通过剪枝去除冗余权重连接(非结构化稀疏)或整个神经元/注意力头(结构化稀疏),降低模型计算密度,配合硬件加速实现推理提速。
-
全模态统一框架原理:针对不同模态(文本、图像、语音)的模型架构差异,设计统一的压缩接口和模态适配层,使量化、投机采样等技术可跨模态复用。
AngelSlim的项目地址
-
GitHub仓库:https://github.com/Tencent/AngelSlim
-
Hugging Face 模型库:https://huggingface.co/collections/AngelSlim
AngelSlim的应用场景
-
云端大模型推理加速:为混元、DeepSeek、Qwen 等千亿级大模型提供量化压缩与投机采样加速,降低 GPU 显存占用和计算延迟,提升高并发场景下的服务吞吐量。
-
端侧模型部署优化:通过 INT4/INT8 量化将大模型压缩至适合手机、平板、IoT 设备运行的体积,支持离线推理和隐私保护场景。
-
多模态 AI 应用加速:为视觉语言模型(VLM)的图文理解、语音模型(ASR/TTS)的实时转录与合成提供全模态压缩方案,加速智能客服、内容审核、实时翻译等应用。
-
AIGC 内容生成提效:在 AI 写作、代码生成、图像描述等生成式场景中,通过投机采样技术显著降低首 token 延迟和整体生成时间,提升用户体验。
-
企业私有化部署降本:帮助企业将开源大模型压缩后部署至私有云或本地服务器,减少算力采购成本,实现高性价比的 AI 中台建设。