[发明专利]语音识别方法、装置、设备及存储介质在审
申请号: | 202210834523.0 | 申请日: | 2022-07-14 |
公开(公告)号: | CN115206301A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 庄子扬;魏韬;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/22;G10L15/26 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 郝少剑 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 存储 介质 | ||
本申请涉及人工智能技术,揭露了一种语音识别方法、装置、设备及存储介质,所述方法包括:将语音数据分帧输入ASR模型,得到多个候选字及其声学概率;通过对当前帧对应的候选字及其声学概率进行束搜索,得到当前帧对应的第一目标候选字;判断第一目标候选字与热词图中的热词是否匹配;若匹配,从热词图中确定下一帧的备选字,当下一帧的候选字中包括备选字,将备选字作为第二目标候选字;若不匹配,则通过束搜索确定下一帧的第二目标候选字,直至各帧对应的目标候选字都确定完毕;基于各目标候选字,得到多个语句组合及其声学得分,并利用语句组合搜索热词图,获取热词得分;基于声学得分和热词得分,确定识别结果。本申请提高了语音识别的准确度。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。
背景技术
随着社会和技术的不断发展,语音识别技术的应用越来越普遍,在现有的语音识别的应用中,对于常用的词汇识别效果较好,但是对于一些特有的人名、歌名、地名或者某个领域的专有词汇,例如人名“宋xx”、歌名“国际歌”、地名“丽泽商务区”以及语音识别专业词汇“解码器”等,存在识别准确率不高的情况。针对这一情况,现有技术常通过添加热词进行识别特有名词,但仅通过热词进行特有名词的匹配识别,识别准确率依旧不高。因此,如何解决语音识别准确率较低的问题成为了亟待解决的问题。
发明内容
本申请提供了一种语音识别方法、装置、设备及存储介质,以解决现有语音识别准确率较低的问题。
为解决上述问题,本申请提供了一种语音识别方法,包括:
将语音数据分帧输入ASR模型进行识别处理,得到多个候选字及其对应的声学概率;
通过对当前帧对应的所述候选字及其声学概率进行束搜索,得到所述当前帧对应的第一目标候选字;
判断所述第一目标候选字与热词图中的热词是否匹配,其中,所述热词图基于预设热词表构建得到;
若匹配,则基于所述第一目标候选字,从所述热词图中确定下一帧的备选字,当所述下一帧的候选字中包括所述备选字,则将所述备选字作为第二目标候选字;
若不匹配,则基于下一帧中候选字对应的声学概率确定第二目标候选字,直至各帧对应的目标候选字都确定完毕;
基于各帧对应的所述目标候选字,得到多个语句组合及其对应的声学得分,并利用所述语句组合搜索热词图,获取热词得分;
基于所述声学得分和热词得分,确定识别结果。
进一步的,所述热词图基于预设热词表构建得到包括:
对所述预设热词表中的热词进行拆分,得到待处理字;
根据各热词对应的字数,从大到小依次利用对应的所述待处理字构建所述热词图中连接各节点的弧线,并设定了对应的弧权重,其中,所述待处理字与弧线一一对应,热词对应的多个待处理字在所述热词图中形成闭环。
进一步的,所述设定了对应的弧权重之后,还包括:
在所述热词图的各节点上设置有回退弧,所述回退弧为连接各节点与初始节点的弧线,并且所述回退弧对应的权重为各所述节点已有权重的相反数;
当在后构建的热词为在先已构建完成热词的前缀时,对所述已构建完成热词的前缀对应节点的回退弧权重进行置零处理。
进一步的,所述基于各帧对应的目标候选字,得到多个语句组合及其对应的声学得分包括:
基于各帧对应的所述目标候选字,确定多个所述语句组合;
根据所述语句组合中包含的所述目标候选字,获取所述目标候选字对应的声学概率;
将所述目标候选字对应的声学概率相乘得到所述声学得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210834523.0/2.html,转载请声明来源钻瓜专利网。