[发明专利]基于置信度的语音识别实现方法及系统有效
申请号: | 201710060942.2 | 申请日: | 2017-01-25 |
公开(公告)号: | CN106782513B | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 俞凯;陈哲怀 | 申请(专利权)人: | 上海交通大学;苏州思必驰信息科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/20;G10L15/30;G10L15/32 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于置信度的语音识别实现方法及系统,根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构,并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系,即混淆网络竞争概率;同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间,计算得到完整无损失的全搜索空间概率,并结合音素同步解码的语音识别,对生成的全搜索空间进行搜索过程记录,并由整个搜索历史进行路径回溯,从而得到全搜索空间概率;最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果。本发明一方面可以对语音识别的结果给出正确的置信度,从而改善语音识别用户体验,另一方面可以显著减少语音识别置信度算法的计算和内存资源消耗。 | ||
搜索关键词: | 基于 置信 语音 识别 实现 方法 系统 | ||
【主权项】:
1.一种基于置信度的语音识别实现方法,其特征在于,根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构,并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系,即混淆网络竞争概率;同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间,计算得到完整无损失的全搜索空间概率,并结合音素同步解码的语音识别,对生成的全搜索空间进行搜索过程记录,并由整个搜索历史进行路径回溯,从而得到全搜索空间概率;最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果;所述的竞争关系,通过以下方式得到:3.1 根据最优解码路径生成混淆网络聚类旗帜;3.2 对各候选词的时间边界和音素信息进行聚类,并合并到混淆网络聚类旗帜上;3.3 在聚类后得到的混淆网络上重新抽取最优解码路径,最终竞争关系通过混淆网络表示,并基于语音识别候选结果之间的竞争关系得到竞争概率;所述的全搜索空间概率,通过以下方式得到:4.1 基于多元语言模型构建发音全搜索空间;4.2 通过发音全搜索空间自身的上下文信息构建带上下文信息的发音搜索空间;4.3 结合声学模型相应的搜索状态建模,得到最终的全搜索空间;4.4 结合音素信息在全搜索空间上进行搜索,得到候选竞争单元;4.5 通过候选竞争单元的语音识别解码概率,计算得到全搜索空间概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;苏州思必驰信息科技有限公司,未经上海交通大学;苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710060942.2/,转载请声明来源钻瓜专利网。