project
StepAudio 2.5 ASR - 阶跃星辰推出的自动语音识别模型
StepAudio 2.5 ASR 是阶跃星辰推出的新一代自动语音识别模型,专为语音转写、会议纪要与长音频处理设计。模型采用 Audio Encoder + Linear Adapter + 4B LLM ...
StepAudio 2.5 ASR是什么
StepAudio 2.5 ASR 是阶跃星辰推出的新一代自动语音识别模型,专为语音转写、会议纪要与长音频处理设计。模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架构,将多Token预测技术首次引入语音识别领域,实现500 TPS极速推理。模型支持OGG、mp3、wav、PCM等格式输入,复用32K上下文窗口,单次可端到端转写30分钟音频,彻底告别传统切片方案导致的上下文断裂问题,在速度与精度上达到业内SOTA水准。
StepAudio 2.5 ASR的主要功能
-
极速语音转写:模型推理峰值达500 tokens/s,5分钟音视频秒级完成转写。
-
长音频端到端识别:复用32K上下文窗口,单次完整转写30分钟音频。
-
多格式音频支持:兼容OGG、mp3、wav、PCM等常见音频格式。
-
中英文及方言识别:覆盖中英主流语种,支持方言、带口音普通话及少量日语、阿拉伯语。
-
高吞吐解码:基于MTP-5架构,吞吐量提升400%,推理成本降低80%。
StepAudio 2.5 ASR的技术原理
- 整体架构设计:模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四层堆叠架构,兼顾音频表征提取、维度对齐、语言建模与高吞吐解码。
- 音频编码层:0.6B Transformer 音频编码器将输入音频转化为 12.5 Hz 的 audio embedding,完成原始声学信号到语义向量的初步映射。
- 维度对齐层:Linear Adapter 负责将音频编码器输出与 LLM 隐藏维度对齐,实现跨模态特征空间的桥接与适配。
- 语言建模主干:4B 参数 LLM 作为模型核心,承担上下文理解与自回归文本生成任务,复用原生 32K 上下文窗口实现长音频端到端建模。
- MTP 多 Token 预测:引入 Step 3.5 Flash 同款 MTP-5 模块,单次前向传播可额外并行预测 5 个候选 token,突破传统 ASR 逐 token 顺序生成的速度瓶颈。
如何使用StepAudio 2.5 ASR
-
在线体验:访问阶跃星辰体验中心 https://www.stepfun.com/studio/audio?tab=speech-recognition,上传音频进行在线转写。
-
API接入:前往阶跃星辰开放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官网 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ,查看API文档,获取模型标识与示例代码。
-
Demo页面:访问Demo页面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ,查看公开示例与效果展示。
-
开发者接入:通过程序化调用ASR API,将识别结果接入检索、摘要、质检或归档链路。
StepAudio 2.5 ASR的关键信息和使用要求
- 发布主体:由阶跃星辰(StepFun)正式发布,已全量上线阶跃星辰开放平台与 Step Plan。
- 模型架构:采用 Audio Encoder(0.6B)+ Linear Adapter + 4B LLM + MTP-5 四层架构,整体参数规模约 4.6B。
- 推理性能:峰值达 500 tokens/s,吞吐量提升 400%,时延降低 60%,推理成本直降 80%。
- 上下文能力:复用 LLM 原生 32K 上下文窗口,单次可端到端完整转写最长 30 分钟音频,无需切片拼接。
- 支持格式:OGG、mp3、wav、PCM 等常见音频格式。
- 语言覆盖:中英文为主,支持方言、带口音普通话,以及少量日语和阿拉伯语。
- 评测成绩:在中文(AISHELL、Wenet、FLEURS-zh)、英文(LibriSpeech、Common Voice、VoxPopuli)及长音频多项权威基准上均达 SOTA 水平。
- 训练数据:预训练使用千万小时量级语音音频数据;ASR 专项训练包含 10 万小时高质量短音频(最长 30 秒)与 5 万小时长音频(最长 30 分钟)。
- 接入渠道:开发者可通过阶跃星辰开放平台 API 或 Step Plan 集成;普通用户可前往体验中心在线试用,或访问 Demo Page 查看效果展示。
StepAudio 2.5 ASR的核心优势
- 速度突破:率先将大语言模型推理加速技术引入语音识别领域,推理峰值达 500 tokens/s,吞吐量提升 400%。
- 成本优势:推理时延降低 60%,推理成本直降 80%,以更低算力实现更高转写上限。
- 精度领先:在中文、英文及长音频多项权威评测基准上均达 SOTA 水平,综合错误率行业最低。
- 长文稳定:复用 32K 原生上下文窗口,单次端到端转写 30 分钟音频,精度无衰减,彻底告别切片拼接导致的上下文断裂。
- 架构创新:基于 ASR+MTP-5 深度融合架构,通过多 Token 并行预测与验证机制突破传统逐 token 自回归生成的速度瓶颈。
- 场景覆盖:支持 OGG、mp3、wav、PCM 等多格式输入,覆盖中英主流语种及方言、带口音普通话等复杂声学场景。
StepAudio 2.5 ASR的项目地址
- 技术论文:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
- 在线体验Demo:https://stepaudiollm.github.io/step-audio-2.5-asr/
StepAudio 2.5 ASR的同类竞品对比
| 对比维度 | StepAudio 2.5 ASR | Qwen3 ASR | Doubao-ASR-2603 |
|---|---|---|---|
| 模型架构 | Audio Encoder+4B LLM+MTP-5 | 未公开 | 未公开 |
| 推理速度 | 500 TPS,吞吐量提升400% | 标准自回归 | 标准自回归 |
| 中文平均CER | 2.97% | 3.17% | 3.34% |
| 英文平均WER | 3.68% | 3.85% | 6.67% |
| 长音频WER | 3.70% | 4.20% | 6.11% |
| 最大上下文 | 32K(30分钟端到端) | 未明确 | 未明确 |
| 成本优化 | 推理成本降低80% | 无 | 无 |
StepAudio 2.5 ASR的应用场景
- 会议纪要与访谈转写:端到端转写长时段会议、访谈录音,保持术语一致性与上下文连贯,无需切片拼接。
- 字幕生成与媒资预处理:快速生成视频字幕,支持 OGG、mp3、wav、PCM 等多格式音频批量处理。
- 长音频内容归档:适用于播客、讲座、庭审等 30 分钟级音频的完整转写与检索入库。
- 实时语音质检:凭借低时延与高吞吐特性,适用于客服通话质检与内容合规审查场景。
- 后端系统接入:识别结果可直接接入检索、摘要、质检或归档链路,满足工业级术语一致性与稳定性要求。