[发明专利]语音识别中文文本的校正方法有效
申请号: | 202110407839.7 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113297348B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 王永强;张四维;赵轩;武永泉;徐涛;秦涛 | 申请(专利权)人: | 国网江苏省电力有限公司南京供电分公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/253;G06F40/289;G10L15/26 |
代理公司: | 南京同泽专利事务所(特殊普通合伙) 32245 | 代理人: | 闫彪 |
地址: | 210019*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 中文 文本 校正 方法 | ||
1.一种语音识别中文文本的校正方法,其特征在于:包括如下步骤:
S1、针对已建立的特定环境语言各种专门术语的关键词数据库,对所述关键词数据库中的所有关键词按照如下语法规则进行整理:
S11、将所述关键词数据库中的所有关键词按照对象、属性和动作进行分类,构成对象类关键词、属性类关键词和动作类关键词的三类关键词,每一个关键词由词条ID地址、词条名称、汉字和拼音四种信息构成,所有关键词以对象类关键词为主干彼此联系,所述对象的类别数量n≥1;
S12、分别构造对应所述对象、属性和动作三类关键词的汉字和拼音的AC自动机,分别是对象汉字AC自动机和对象拼音AC自动机、属性汉字AC自动机和属性拼音AC自动机、动作汉字AC自动机和动作拼音AC自动机;
S2、采用现有语音识别装置,将输入的特定环境的语音进行特征的提取,获得该语音识别后的中文识别串;
S3、所述AC自动机对所述中文识别串依次提取分属对象、动作和属性的三种汉字词条及其拼音,并遍历搜索所述关键词数据库中的三类关键词及其拼音依次与提取的所述汉字词条及其拼音进行匹配;匹配如下:
S31、如果一种汉字词条与搜索到的关键词的汉字彼此匹配,则继续下一种汉字词条的匹配;否则进行步骤S32;
S32、如果一种汉字词条与搜索到的关键词的汉字彼此不匹配,则进一步比较该汉字词条与搜索到的关键词的拼音彼此是否匹配,如果拼音彼此匹配,则将搜索到的关键词代替该汉字词条,然后继续下一种汉字词条的匹配;否则进行步骤S33;
S33、如果一种汉字词条与搜索到的关键词的汉字和拼音彼此均不匹配,则停止对所述中文识别串的校正;
S34、在三种汉字词条的汉字和拼音分别与搜索到的三类关键词的汉字和拼音均彼此匹配成功后,进行步骤S4;
S4、将匹配成功后的三种汉字词条合成为新中文识别串,完成对所述中文识别串的校正。
2.根据权利要求1所述语音识别中文文本的校正方法,其特征在于:所述三种汉字词条及其拼音分别是对象汉字词条及其拼音、动作汉字词条及其拼音和属性汉字词条及其拼音;
所述S31步骤分为如下:
S311、对象汉字AC自动机根据提取的对象汉字词条,从所述关键词数据库中搜索对象类关键词,如果所述对象汉字词条与搜索到的对象类关键词的汉字彼此匹配,则进行步骤S312;否则进行步骤S321;
S312、属性汉字AC自动机根据提取的属性汉字词条,从所述关键词数据库中搜索属性类关键词,如果所述属性汉字词条与搜索到的属性类关键词的汉字彼此匹配,则进行步骤S313;否则进行步骤S322;
S313、动作汉字AC自动机根据提取的动作汉字词条,从所述关键词数据库中搜索动作类关键词,如果所述动作汉字词条与搜索到的动作类关键词的汉字彼此匹配,则结束匹配进行步骤S4;否则进行步骤S323;
所述S32步骤分为如下:
S321、如果所述对象汉字词条与搜索到的对象类关键词的汉字彼此不匹配,则进一步比较所述对象汉字词条与搜索到的对象类关键词的拼音彼此是否匹配,如果拼音彼此匹配,则将搜索到的对象类关键词代替所述对象汉字词条,然后进行步骤S312;否则进行步骤S331;
S322、如果所述属性汉字词条与搜索到的属性类关键词的汉字彼此不匹配,则进一步比较所述属性汉字词条与搜索到的属性类关键词的拼音彼此是否匹配,如果拼音彼此匹配,则将搜索到的属性类关键词代替该属性汉字词条,然后进行步骤S313;否则进行步骤S332;
S323、如果所述动作汉字词条与搜索到的动作类关键词的汉字彼此不匹配,则进一步比较所述动作汉字词条与搜索到的动作类关键词的拼音彼此是否匹配,如果拼音彼此匹配,则将搜索到的动作类关键词代替该动作汉字词条,结束匹配进行步骤S4;否则进行步骤S333;
所述S33步骤分为如下:
S331、如果对象汉字词条与搜索到的对象类关键词的汉字和拼音彼此均不匹配,则停止对所述中文识别串的校正;
S332、如果属性汉字词条与搜索到的属性类关键词的汉字和拼音彼此均不匹配,则停止对所述中文识别串的校正;
S333、如果动作汉字词条与搜索到的动作类关键词的汉字和拼音彼此均不匹配,则停止对所述中文识别串的校正;
所述S34步骤是:在对象汉字词条、属性汉字词条和动作汉字词条分别与搜索到的对象类关键词、属性类关键词和动作类关键词均匹配成功后,进行步骤S4;
所述S4步骤是:将匹配成功后的对象汉字词条、属性汉字词条、动作汉字词条合成为新中文识别串,完成对所述中文识别串的校正。
3.根据权利要求1或2所述语音识别中文文本的校正方法,其特征在于:所述拼音是拼音的首字母。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司南京供电分公司,未经国网江苏省电力有限公司南京供电分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110407839.7/1.html,转载请声明来源钻瓜专利网。