[发明专利]一种多引擎语音识别结果融合方法在审
申请号: | 202211436231.8 | 申请日: | 2022-11-16 |
公开(公告)号: | CN115859950A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 邵玉斌;杨荣泰;龙华;杜庆治;段云;祁雨婷;张凤 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/226;G06F40/253;G06F40/237;G06F16/33;G10L15/26 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 引擎 语音 识别 结果 融合 方法 | ||
1.一种多引擎语音识别结果融合方法,其特征在于:首先建立一个经过词性标注的音似字词库,其次对文本进行预处理,将连续的文本分成字词序列,再设置动态窗口进行文本序列匹配,匹配完成,标记不匹配的字词位置,之后通过相似度检测方法同时进行多段文本的相似度检测,当相似度小于设定值时,通过基于语法树的句法分析方法对检测出的差异部分进行句法分析同时纠错,纠错过程中,先对未纠错文本进行语法树建模,计算当前语法树存在的概率,然后对不匹配的字词进行音似字词轮询替换,每次替换都构建一棵语法树并计算该语法树存在的概率,使得该概率最大的字词视为最佳纠错结果,最终输出纠正的文本,达到不同文本融合的效果,最后通过基于编辑动作的识别引擎准确率评价方法对不同的编辑动作赋权值,纠错完毕后对编辑动作的权值求和并且排名,值越小说明该语音识别引擎识别准确率越高。
2.根据权利要求1所述的多引擎语音识别结果融合方法,其特征在于,所述的基于词性标注的音似字库建立方法为:基于现有词库构建音似字词库,词库中的每一个字词都做词性标注,所述词库提供的动态管理机制,可以针对目标用户进行动态调整,被调用次数越多的字词在词库中的优先级越高。
3.根据权利要求1所述的多引擎语音识别结果融合方法,其特征在于,所述的动态窗口相似度检测方法为:根据两段待融合文本的长度计算匹配阈值,然后通过这个阈值计算可以进行匹配的窗口大小,在该窗口内进行匹配并记录换位数量,在匹配过程中不断累加换位数量,匹配完成后,记录两段文本中互相匹配的token的数量以及匹配的前缀数量,然后计算两段文本的Jaro相似度。
4.根据权利要求3所述的多引擎语音识别结果融合方法,其特征在于:所述方法过建模匹配成功的token对后续匹配任务的影响,这种影响记为P,并引入缩放因子常量γ用于调节这种影响程度,其建模方程为:
当Simw小于设定值时,对不匹配的token所在句子进行句法分析并纠错。
5.根据权利要求1所述的多引擎语音识别结果融合方法,其特征在于,所述的基于语法树句法分析和纠错方法为:
对某一棵语法树的特征定义如下:
N:代表所有非叶子节点,是词性;
∑:代表所有叶子节点,是具体的词;
R:代表两个节点之间的语法规则;
S:代表root节点,是语法树的开始;
在语法规则R的限制下,(α→β)表示在对非终端α节点作延伸,延伸到β节点,这种可以延伸的概率表示为:q(α→β),其中:q(α→β)>0;
若非终端α节点延伸到多个节点β1,β2,β3,...,βn,则其延伸概率之和为1,即:
对一句话进行语法树建模,其语法存在的概率为每个非终端节点延伸到其他节点的概率之积;
针对不匹配的节点的字词进行替换,替换后更新语法树重新计算该语法树存在的概率,替换完毕后选择概率最大的一颗语法树做为最终的结果,输出该语法树下的文本作为最终的纠正后的文本。
6.根据权利要求1所述的多引擎语音识别结果融合方法,其特征在于,所述的基于编辑动作的识别引擎准确率评价方法为:对不同类型的纠错动作赋予不同的权值dtype,纠错完毕后累加该编辑动作权值,值越小表明该语音识别引擎识别准确率越高,输出纠正后的文本同时给出语音识别引擎识别准确率排名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211436231.8/1.html,转载请声明来源钻瓜专利网。