project
Nemotron Speech ASR - 英伟达开源的语音识别模型
Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转...
Nemotron Speech ASR是什么
Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转录锁定仅需24毫秒,有效解决了传统流式模型在长语音识别中的累积延迟问题。模型支持多档延迟模式(80ms、160ms、560ms、1.12s),可根据应用场景灵活调整,无需重新训练,适用于游戏语音、实时翻译、会议记录等多种场景。具备更高的吞吐量和更低的运行成本,端到端延迟控制在500毫秒以内,并原生支持标点符号和大小写。
Nemotron Speech ASR的主要功能
-
低延迟实时识别:专为低延迟、实时流式场景设计,单句转录锁定仅需24毫秒,几乎与人类神经反应速度相当,适用于对实时性要求极高的语音交互场景。
-
缓存感知架构:采用缓存感知设计,已处理的语音特征直接缓存,新音频帧只计算增量部分,避免重复计算,有效解决长语音识别中的累积延迟问题。
-
多档延迟模式:支持80ms、160ms、560ms、1.12s等多档延迟模式,可根据不同应用场景灵活调整,无需重新训练模型,满足从极致速度到高精度的多样化需求。
-
高吞吐量与低运行成本:与传统流式模型相比,提供更高的吞吐量,在相同GPU内存限制下可处理更多并行流,显著降低生产环境的运行成本。
-
端到端低延迟:整个端到端的延迟被控制在500毫秒以内,确保语音交互的流畅性和即时性。
-
原生支持标点和大小写:模型原生支持标点符号和大小写,提升了识别结果的可读性和实用性。
-
集成语音智能体方案:Nemotron Speech ASR 不是孤立的模型,是被集成在完整的语音智能体方案中,与Nemotron 3 Nano 30B(LLM)和Magpie(TTS)协同工作,为构建真正的语音智能体提供了全面支持。
Nemotron Speech ASR的技术原理
-
缓存感知设计:通过维护编码器状态缓存,对已处理的音频特征进行存储,新音频帧到来时直接调用缓存,仅计算当前增量,避免重复计算,从而实现极低延迟的实时处理。
-
增量计算机制:与传统流式模型不同,Nemotron Speech ASR 不会重新编码历史数据,是基于缓存的激活值进行增量计算,有效解决了长语音识别中的累积延迟问题。
-
动态延迟调整:支持多种延迟模式(如80ms、160ms、560ms、1.12s),用户可以在推理阶段通过参数灵活调整延迟,无需重新训练模型,适应不同场景的延迟需求。
-
高效并行处理:采用优化的架构设计,能在相同的GPU内存限制下处理更多并行流,显著提高吞吐量,降低生产环境的运行成本。
-
端到端优化:从音频输入到文本输出的整个流程都经过优化,确保端到端的延迟控制在500毫秒以内,满足实时语音交互的需求。
-
上下文感知解码:通过可配置的上下文大小参数(如
att_context_size),动态调整模型对上下文信息的利用,进一步优化识别准确率和延迟的平衡。
Nemotron Speech ASR的项目地址
- Github仓库:https://github.com/NVIDIA-NeMo/NeMo
- HuggingFace模型库:https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b
Nemotron Speech ASR的应用场景
-
实时语音助手:为智能语音助手提供低延迟的语音识别能力,实现即时响应用户的语音指令,提升交互体验。
-
游戏语音交互:在游戏场景中,支持低延迟的语音聊天和指令识别,增强玩家之间的实时沟通和互动。
-
实时翻译:用于多语言环境下的实时语音翻译,快速将一种语言的语音内容转换为另一种语言的文字或语音,促进跨语言交流。
-
会议记录:在会议场景中,提供高精度的语音转文字功能,实时生成会议记录,提高会议效率。
-
直播互动:在直播中,为观众提供实时字幕,增强观众的参与感和互动体验。
-
客服系统:在客户服务中,快速识别用户语音问题并提供即时响应,提升客服效率和用户满意度。