[发明专利]基于神经网络的语音识别矫正方法在审

申请号：	202111448712.6	申请日：	2021-12-01
公开（公告）号：	CN114120981A	公开（公告）日：	2022-03-01
发明（设计）人：	游海涛;吴昊	申请（专利权）人：	厦门万势顺易科技有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/16;G10L15/26
代理公司：	北京权智天下知识产权代理事务所(普通合伙) 11638	代理人：	余喜娣
地址：	361000 福建省厦门市思***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经网络语音识别矫正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音识别技术领域，具体涉及到基于神经网络的语音识别矫正方法。本申请的基于神经网络的语音识别矫正方法，通过获取输入的语音信息，并转化为待处理文本信息；根据所述待处理文本信息判断是否使用口令方式，若未使用口令方式则进入基于神经网络的命名实体识别，以获得待优化候选词；将所述待优化候选词转化为拼音，并与个人名词数据库进行一一映射；若符合替换规则，则从个人名词数据库中替换待优化待选词，并输出正确的文本信息，从而实现该语音识别矫正方法的简便性，有效避免交互的麻烦。

技术领域

本发明涉及语音识别技术领域，具体涉及到基于神经网络的语音识别矫正方法。

背景技术

传统的语音识别根据音频特征、上下文完成声音转文本任务。而现实中由于口齿不清、讲话频率、音色等多种问题造成语音识别不准的问题，其次传统的语音识别并不能具备良好的名词推导能力，原因在于传统的语音识别基于语言模型，语音模型的原理具体如下：对于一个由n个词按顺序构成的句子S＝w₁w₂...w_n，P(w₁w₂...w_n)实际上求解的是字符串w₁w₂...w_n的联合概率，利用贝叶斯公式，链式分解如下：

P(ω₁，ω₁，…，ω_n)＝P(ω₁)P(ω₂/ω₁)…P(ω_n/ω₁，…，ω_n-1)

从上面可以看到，一个统计语言模型可以表示成，给定前面的的词，求后面一个词出现的条件概率。但大部分名词取决于发明人的臆想，不一定会基于上下文，所以在语音识别中名词的推导成了该领域的难题。

而现存的大部分解决方案是提高语言模型能力，如上述的只能提高传统句式的鲁棒性，但是这并不能有效解决模型对日新月异新事物的理解能力；而少部分解决方案是在人机交互上下功夫，通过询问用户正确的字词，发出怀疑的询问，让用户手动选择或澄清来替换错误的字词，但是此操作依然面临候选字词并不是用户所需要的，以及澄清结果未抓到有效特征，同时还会造成操作冗余，开发成本过高等问题。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供基于神经网络的语音识别矫正方法。

为实现上述目的，本发明采用的技术方案如下：基于神经网络的语音识别矫正方法，包括以下方法：

获取输入的语音信息，并转化为待处理文本信息；

根据所述待处理文本信息判断是否使用口令方式，若未使用口令方式则进入基于神经网络的命名实体识别，以获得待优化候选词；

将所述待优化候选词在个人名词数据库进行匹配，并输出正确的文本信息。

进一步的，将所述待优化候选词在个人名词数据库进行匹配，并输出正确的文本信息包括

将所述待优化候选词转化为拼音，并与个人名词数据库进行一一映射；

若符合替换规则，则从个人名词数据库中替换待优化待选词，并输出正确的文本信息。

进一步的，待优化候选词的替换规则包括

a、还原待优化候选词拼音，并与其对应的单个或多个数据库中每个名词的拼音计算编辑距离，找出编辑距离最小的名词；

b、当sh、zh…|ang、guang“h”和“g”作为卷舌和后鼻音的标识时，不记入编辑距离的计算；