[发明专利]一种多引擎语音识别结果融合方法在审
申请号: | 202211436231.8 | 申请日: | 2022-11-16 |
公开(公告)号: | CN115859950A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 邵玉斌;杨荣泰;龙华;杜庆治;段云;祁雨婷;张凤 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/226;G06F40/253;G06F40/237;G06F16/33;G10L15/26 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 引擎 语音 识别 结果 融合 方法 | ||
本发明涉及一种多引擎语音识别结果融合方法,属于语音识别技术领域。首先根据语音识别的特点建立一个音似字词库,词库标注了每一个词的词性。然后设置一个可以动态调整的窗口,在这个窗口内判断多个待融合文本的相似度,当相似度低于阈值时,定位错误候选词位置,然后对错误候选词所在的句子进行句法分析,接着对错误候选词进行基于音似字词的字轮询替换,当替换后形成的文本通过句法分析检查时,视为纠错成功。最后对于不同程度的纠正动作赋予不同的编辑权值,重复以上步骤,直到最后一个窗口的文本纠正完毕。输出纠正后的文本,累加编辑权值,得到编辑距离,编辑距离最小的引擎视为识别准确率最佳引擎,并给出所有引擎的识别准确率排名。
技术领域
本发明涉及一种多引擎语音识别结果融合方法,属于语音识别和自然语言处理技术领域。
背景技术
随着语音识别技术和自然语言处理技术的飞速发展,在噪声比较小,发音比较标准的条件下,语音识别准确率已经可以达到90%以上。但是在日常的生活中,普通人的发音并不能够达到标准。语言环境的不同导致了不同地区的人在说普通话是存在一定的口音,在某些发音上确实难以改变。以上因素都会导致这些人在使用语音识别软件时导致语音识别引擎识别结果不准确,而识别结果的不准确主要表现在音似字词识别的不准确上。
发明内容
本发明要解决的技术问题是提供一种多引擎语音识别结果融合方法,用于纠正输出文本中的错误字词,输出更合理的文本,从而解决由于使用者发音不标准,存在口音导所致的语音识别引擎识别不准确问题。
本发明的技术方案是:首先,导致语音识别不准确的最主要的原因之一在于音似字词的识别错误,因此,本发明基于现有词库构建音似字词库,词库中的每一个字词经过了词性标注,以便做语法分析,这种处理机制可以在轮询替换中提高轮询的速度和匹配的准确率。普通人在发音时在某几个音节的发音上不够标准,容易导致语音识别系统误判。对此该音似字词库可以针对目标用户进行动态调整,在多轮识别中词库会记录使用者经常发错,发不到位的音,并提高该字词在词库中的匹配优先级。在下一次纠正时给予优先匹配权限,以此提高纠错速度。
其次,考虑到同一段语音通过语音识别引擎识别而得到的文本从字符基本上看,只有少数字符不一致,从字符排列的顺序上看,两段文本大部分字符的相对位置一致。在进行两段文本token级别的对比和匹配时,没有必要采用暴力匹配的方法,每一个token只需在一定发范围内与另一段文本相对位置的几个token进行匹配判断即可。本发明提供的一种方法是:根据两段待融合文本的长度计算匹配阈值,记为K,其计算表达式为:
然后通过这个阈值K计算文本分词后得到的每个token与另外一段文本匹配时可以进行匹配的窗口大小,该窗口计算方法为:假设S1,S2的索引分别为i,j,i∈[0,(M-1)],j∈[0,(N-1)]。S1的匹配窗口用W1表示,S2的匹配窗口用W2表示,则:S1的第i个token可以表示为S1[i];S2的第j个token'可以表示为S[j]。S1[i]的匹配窗口取值范围可以由表达式|i-W1|≤K确定。同理,S2[j]匹配窗口取值范围可以由表达式|j-W2|≤K定。换位数量t的定义为:如果token1≠token′1,且token2≠token′2,则换位数量t=2。匹配完成后,记录S1,S2中所有匹配token的数量m以及相同的前缀数量l,并且记录两段文本之间token的换位数量t。然后计算两段文本的Jaro相似度,其计算表达式为:
考虑到Jaro相似度没有衡量前面匹配成功的token对文本相似度的影响。本发明提出一种改进方法,该方法的思想是:如果前面匹配的token越多,则后面token匹配成功的概率越大,最终的文本相似度也越高。本发明实现这种思想的一种数学模型为计算中引入缩放因子γ用于调节前面相似度对后面相似度的影响程度,实验表明当γ的取值在0<γ<0.25之间时,效果最好。因此:最终S1,S2相似度Simw的计算表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211436231.8/2.html,转载请声明来源钻瓜专利网。