ニュース
听得清,看得懂!豆包语音识别模型2.0来了
火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。
火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。