[发明专利]语音识别的方法、装置、计算机可读存储介质与处理器在审
申请号: | 202110786043.7 | 申请日: | 2021-07-12 |
公开(公告)号: | CN113506565A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 李健;谢园园;陈明;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/24;G10L25/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 霍文娟 |
地址: | 100089 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 可读 存储 介质 处理器 | ||
本申请提供了一种语音识别的方法、装置、计算机可读存储介质与处理器。该方法包括获取语音数据;确定语音数据的语音类别,语音类别包括语种和/或方言;确定语音数据的上下文语义;根据语音类别和上下文语义,确定ASR引擎和ASR模型;采用ASR引擎和ASR模型,对语音数据进行识别。通过获取语音数据,确定语音数据的语音类别和上下文语义,再综合语音类别和上下文语义确定ASR引擎和ASR模型,最后采用确定好的ASR引擎和ASR模型,对语音数据进行识别。实现了对语音数据的精确识别。
技术领域
本申请涉及语音识别领域,具体而言,涉及一种语音识别的方法、装置、计算机可读存储介质与处理器。
背景技术
随着人工智能技术的发展,智能语音IVR的出现,使人机语音交互有了新的模式。智能语音IVR,融合智能语音识别技术,打破了传统IVR只能接收客户输入12个字符的交互方式,并在此基础上加入了更多自主服务内容。同时支持按键和语音双选择,提供AI/人工等多种接待方式,且可使用全TTS语音合成导航录音。智能语音交互在传统IVR的基础上进一步压缩服务客户时间,大幅提升用户满意度。但随着语音应用走进大众,由于目标人群庞大、范围广泛,对语音识别的鲁棒性和适应性要求越来越高,通用的语音识别模型很难满足多样化的智能语音导航应用场景,语音识别过程中由于不同用户的性别、语种、方言等问题,极大地降低了识别的准确度。
现有技术中的实现方案是通过云端采集不同年龄段说话的语种和方言动态的更新语音识别资源,但是这种仅能专门针对某种方言或语种解决部分的识别问题,在提升准确率上还是有一定的欠缺。
发明内容
本申请的主要目的在于提供一种语音识别的方法、装置、计算机可读存储介质与处理器,以解决现有技术中语音识别模型的适用范围较小的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种语音识别的方法,包括:获取语音数据;确定所述语音数据的语音类别,所述语音类别包括语种和/或方言;确定所述语音数据的上下文语义;根据所述语音类别和所述上下文语义,确定ASR引擎和ASR模型;采用所述ASR引擎和所述ASR模型,对所述语音数据进行识别。
可选地,确定所述语音数据的语音类别,包括:提取出所述语音数据的音频特征参量;根据所述音频特征参量确定所述语音类别。
可选地,根据所述音频特征参量确定所述语音类别,包括:构建分类模型;将所述音频特征参量输入至所述分类模型中进行计算,输出所述语音类别。
可选地,确定所述语音数据的上下文语义,包括:提取出所述语音数据中的关键词;根据所述关键词确定所述上下文语义。
可选地,根据所述语音类别和所述上下文语义,确定ASR引擎和ASR模型,包括:根据所述上下文语义,确定所述ASR引擎;根据所述语音类别和/或所述上下文语义,确定所述ASR模型。
可选地,根据所述语音类别和所述上下文语义,确定ASR引擎和ASR模型,包括:在用户进行多轮对话过程中,先根据所述上下文语义确定所述ASR引擎,再根据所述语音类别确定所述ASR模型。
可选地,所述ASR引擎包括至少以下之一:语法识别引擎、自由说引擎、关键词检出引擎、语音质检分析引擎。
根据本申请的另一个方面,提供了一种语音识别的装置,包括:获取单元,用于获取语音数据;第一确定单元,用于确定所述语音数据的语音类别,所述语音类别包括语种和/或方言;第二确定单元,用于确定所述语音数据的上下文语义;第三确定单元,用于根据所述语音类别和所述上下文语义,确定ASR引擎和ASR模型;识别单元,用于采用所述ASR引擎和所述ASR模型,对所述语音数据进行识别。
根据本申请的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110786043.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双球阀阀门
- 下一篇:一种智能压铸岛生产线及其生产方法