[发明专利]语音识别文本的字段值纠错方法、装置及存储控制器有效
申请号: | 201910247910.2 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109977412B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 陈钊;赵炜 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/284;G10L15/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 文本 字段 纠错 方法 装置 存储 控制器 | ||
1.一种语音识别文本的字段值纠错方法,其特征在于,确定预设的汉字音形编码规则,所述汉字音形编码规则包括至少一个韵母,以及每一个所述韵母的算法编码;
确定预设的标准字段值集合,所述标准字段值集合包括至少一个标准字段值,以及每一个所述标准字段值的韵母编码向量,其中,字段值的韵母编码向量包括字段值中每一个汉字的韵母的算法编码;
还包括:
获取待纠错字段值;
根据所述汉字音形编码规则,确定所述待纠错字段值的韵母编码向量;
根据所述待纠错字段值的韵母编码向量和各个目标标准字段值的韵母编码向量,分别计算所述待纠错字段值和各个所述目标标准字段值的韵母相似度,所述目标标准字段值的汉字个数等于所述待纠错字段值的汉字个数;
判断全部所述目标标准字段值中是否有且仅有一个第一标准字段值,所述待纠错字段值和所述第一标准字段值的韵母相似度符合预设的相似度条件,若是,将所述待纠错字段值纠正为所述第一标准字段值;
所述汉字音形编码规则还包括至少一个声母,以及每一个所述声母的算法编码;
所述标准字段值集合还包括每一个所述标准字段值的声母韵母编码向量,其中,字段值的声母编码向量包括字段值中每一个汉字的声母的算法编码,字段值的声母韵母编码向量包括字段值的韵母编码向量和字段值的声母编码向量;
在所述判断全部所述目标标准字段值中是否有且仅有一个第一标准字段值之后,进一步包括:
若否,根据所述汉字音形编码规则,确定所述待纠错字段值的声母韵母编码向量;
根据所述待纠错字段值的声母韵母编码向量和各个所述目标标准字段值的声母韵母编码向量,分别计算所述待纠错字段值和各个所述目标标准字段值的声母韵母相似度;
根据第二标准字段值对所述待纠错字段值进行纠错,所述待纠错字段值和所述第二标准字段值的声母韵母相似度不小于任一其他所述声母韵母相似度。
2.根据权利要求1所述的方法,其特征在于,
字段值的汉字个数小于预设个数时,字段值的韵母编码向量还包括:排序在后的一定数量的0值算法编码,以使韵母编码向量的算法编码个数等于所述预设个数;
字段值的汉字个数小于所述预设个数时,字段值的声母编码向量还包括:排序在后的一定数量的0值算法编码,以使声母编码向量的算法编码个数等于所述预设个数;
其中,所述预设个数为所述标准字段值集合中第三标准字段值的汉字个数,所述第三标准字段值的汉字个数不小于任一其他所述标准字段值的汉字个数。
3.根据权利要求2所述的方法,其特征在于,
所述相似度条件包括:韵母相似度为1;
所述分别计算所述待纠错字段值和各个目标标准字段值的韵母相似度,包括:利用公式一,分别计算所述待纠错字段值和各个目标标准字段值的韵母相似度;
所述分别计算所述待纠错字段值和各个所述目标标准字段值的声母韵母相似度,包括:利用公式二,分别计算所述待纠错字段值和各个所述目标标准字段值的声母韵母相似度;
所述公式一包括:
所述公式二包括:
其中,对于全部所述目标标准字段值中的任一第四标准字段值,S1为所述待纠错字段值和所述第四标准字段值的韵母相似度,Ai为所述第四标准字段值的韵母编码向量中的第i个算法编码,Bi为所述待纠错字段值的韵母编码向量中的第i个算法编码,n为所述预设个数,S2为所述待纠错字段值和所述第四标准字段值的声母韵母相似度,Cj为所述第四标准字段值的声母韵母编码向量中的第j个算法编码,Dj为所述待纠错字段值的声母韵母编码向量中的第j个算法编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910247910.2/1.html,转载请声明来源钻瓜专利网。