AngelSlim - 腾讯混元开源的全模态大模型压缩工具包 - AiBoss

AngelSlim是什么

AngelSlim 是腾讯混元团队自研并开源的全模态大模型压缩工具包，通过量化、投机采样、稀疏化和蒸馏等技术，为大语言模型（LLM）、视觉语言模型（VLM）及语音模型提供高效、易用的压缩与加速解决方案。工具集成了 FP8/INT8/INT4 量化、GPTQ、AWQ 等主流压缩策略，支持一键式调用和端到端部署，训练产出模型可无缝衔接 vLLM、Sglang 等推理框架。AngelSlim 重磅升级投机采样训练框架，首创 Eagle3 架构，首次将投机采样技术拓展至全模态场景，让小模型学会为大模型起草多步候选 token 并由大模型并行验证，实测推理速度最高可提升 1.4-1.9 倍。目前已支持混元、DeepSeek、Qwen 系列等主流模型的压缩优化，开发者可通过 pip install angelslim 快速安装使用。

AngelSlim的主要功能

多精度量化压缩：支持 FP8、INT8、INT4 等多种精度量化，集成 GPTQ、AWQ 等主流量化算法，大幅降低模型存储与计算开销。
投机采样加速：首创 Eagle3 训练架构，让小模型为大模型起草多步候选 token，大模型并行验证，推理速度最高提升 1.4-1.9 倍。
全模态覆盖支持：支持大语言模型（LLM）、视觉语言模型（VLM）、语音模型（ASR/TTS）的压缩与加速，首次实现投机采样在全模态场景的应用。
稀疏化与蒸馏：集成结构化/非结构化稀疏、知识蒸馏等技术，进一步压缩模型体积并保留性能。
一键式压缩调用：提供高度集成的 API 接口，简化主流压缩算法的调用流程，降低开发者使用门槛。
端到端部署对接：训练产出模型可直接用于 vLLM、Sglang 等主流推理框架，实现压缩到部署的无缝衔接。
多模型生态兼容：已支持混元（Hunyuan）、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni 等主流开源模型的压缩优化。

AngelSlim的技术原理

量化压缩原理：通过将模型权重从高精度浮点数（FP16/FP32）映射到低精度整数（INT8/INT4）或 FP8 格式，减少存储占用和计算量，同时采用 GPTQ（逐层量化优化）和 AWQ（激活感知权重量化）等算法最小化精度损失。
投机采样（Speculative Decoding）原理：训练一个小型草稿模型（Draft Model）提前生成多个候选 token，再由大型目标模型（Target Model）一次性并行验证，接受合法 token、拒绝错误 token 并回滚修正，通过”小模型起草+大模型把关”的协作机制突破串行解码瓶颈。
Eagle3 架构原理：在标准投机采样基础上引入”前瞻性”训练策略，让草稿模型学习预测未来多步 token 的分布特征，提升候选序列质量，从而增加大模型的接受长度（可达 1.8-3.5 倍），实现更高加速比。
知识蒸馏原理：将大模型（教师模型）的输出分布和中间层特征迁移到小模型（学生模型），通过软标签监督和特征对齐，让小模型在压缩体积的同时继承大模型的能力。
稀疏化原理：通过剪枝去除冗余权重连接（非结构化稀疏）或整个神经元/注意力头（结构化稀疏），降低模型计算密度，配合硬件加速实现推理提速。
全模态统一框架原理：针对不同模态（文本、图像、语音）的模型架构差异，设计统一的压缩接口和模态适配层，使量化、投机采样等技术可跨模态复用。

AngelSlim的项目地址

GitHub仓库：https://github.com/Tencent/AngelSlim
Hugging Face 模型库：https://huggingface.co/collections/AngelSlim

AngelSlim的应用场景

云端大模型推理加速：为混元、DeepSeek、Qwen 等千亿级大模型提供量化压缩与投机采样加速，降低 GPU 显存占用和计算延迟，提升高并发场景下的服务吞吐量。
端侧模型部署优化：通过 INT4/INT8 量化将大模型压缩至适合手机、平板、IoT 设备运行的体积，支持离线推理和隐私保护场景。
多模态 AI 应用加速：为视觉语言模型（VLM）的图文理解、语音模型（ASR/TTS）的实时转录与合成提供全模态压缩方案，加速智能客服、内容审核、实时翻译等应用。
AIGC 内容生成提效：在 AI 写作、代码生成、图像描述等生成式场景中，通过投机采样技术显著降低首 token 延迟和整体生成时间，提升用户体验。
企业私有化部署降本：帮助企业将开源大模型压缩后部署至私有云或本地服务器，减少算力采购成本，实现高性价比的 AI 中台建设。

AngelSlim是什么

AngelSlim的主要功能

多精度量化压缩：支持 FP8、INT8、INT4 等多种精度量化，集成 GPTQ、AWQ 等主流量化算法，大幅降低模型存储与计算开销。

投机采样加速：首创 Eagle3 训练架构，让小模型为大模型起草多步候选 token，大模型并行验证，推理速度最高提升 1.4-1.9 倍。

全模态覆盖支持：支持大语言模型（LLM）、视觉语言模型（VLM）、语音模型（ASR/TTS）的压缩与加速，首次实现投机采样在全模态场景的应用。

稀疏化与蒸馏：集成结构化/非结构化稀疏、知识蒸馏等技术，进一步压缩模型体积并保留性能。

一键式压缩调用：提供高度集成的 API 接口，简化主流压缩算法的调用流程，降低开发者使用门槛。

端到端部署对接：训练产出模型可直接用于 vLLM、Sglang 等主流推理框架，实现压缩到部署的无缝衔接。

多模型生态兼容：已支持混元（Hunyuan）、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni 等主流开源模型的压缩优化。

AngelSlim的技术原理

量化压缩原理：通过将模型权重从高精度浮点数（FP16/FP32）映射到低精度整数（INT8/INT4）或 FP8 格式，减少存储占用和计算量，同时采用 GPTQ（逐层量化优化）和 AWQ（激活感知权重量化）等算法最小化精度损失。

投机采样（Speculative Decoding）原理：训练一个小型草稿模型（Draft Model）提前生成多个候选 token，再由大型目标模型（Target Model）一次性并行验证，接受合法 token、拒绝错误 token 并回滚修正，通过”小模型起草+大模型把关”的协作机制突破串行解码瓶颈。

Eagle3 架构原理：在标准投机采样基础上引入”前瞻性”训练策略，让草稿模型学习预测未来多步 token 的分布特征，提升候选序列质量，从而增加大模型的接受长度（可达 1.8-3.5 倍），实现更高加速比。

知识蒸馏原理：将大模型（教师模型）的输出分布和中间层特征迁移到小模型（学生模型），通过软标签监督和特征对齐，让小模型在压缩体积的同时继承大模型的能力。

稀疏化原理：通过剪枝去除冗余权重连接（非结构化稀疏）或整个神经元/注意力头（结构化稀疏），降低模型计算密度，配合硬件加速实现推理提速。

全模态统一框架原理：针对不同模态（文本、图像、语音）的模型架构差异，设计统一的压缩接口和模态适配层，使量化、投机采样等技术可跨模态复用。

AngelSlim的应用场景

云端大模型推理加速：为混元、DeepSeek、Qwen 等千亿级大模型提供量化压缩与投机采样加速，降低 GPU 显存占用和计算延迟，提升高并发场景下的服务吞吐量。

端侧模型部署优化：通过 INT4/INT8 量化将大模型压缩至适合手机、平板、IoT 设备运行的体积，支持离线推理和隐私保护场景。

多模态 AI 应用加速：为视觉语言模型（VLM）的图文理解、语音模型（ASR/TTS）的实时转录与合成提供全模态压缩方案，加速智能客服、内容审核、实时翻译等应用。

AIGC 内容生成提效：在 AI 写作、代码生成、图像描述等生成式场景中，通过投机采样技术显著降低首 token 延迟和整体生成时间，提升用户体验。

企业私有化部署降本：帮助企业将开源大模型压缩后部署至私有云或本地服务器，减少算力采购成本，实现高性价比的 AI 中台建设。

全部分类

AngelSlim是什么

AngelSlim的主要功能

AngelSlim的技术原理

AngelSlim的项目地址

AngelSlim的应用场景

AngelSlim是什么

AngelSlim的主要功能

AngelSlim的技术原理

AngelSlim的项目地址

AngelSlim的应用场景