[发明专利]一种识别方法、装置、电子设备及存储介质在审
申请号: | 202110281812.8 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113012701A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 刘俊帅;夏光敏;王进 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/51;G10L15/16 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种识别方法、装置、电子设备及存储介质,该方法中利用训练数据训练得到语音识别纠错模型,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息,可以使语音识别纠错模型的训练数据更加丰富,保证语音识别纠错模型能够学习到更丰富的上下文信息,提高语音识别纠错模型的精度。在此基础上,将基于词特征的第一上下文信息和第二上下文信息,确定的词特征以及词特征的第三上下文信息输入到语音识别纠错模型,可以提高语音识别纠错模型纠错的准确率。并且,在对识别结果进行纠错的准确率得到提高的基础上,标点预测模型对准确率更高的识别结果进行标点预测,可以提高标点预测的准确率。
技术领域
本申请涉及语音识别技术领域,特别涉及一种识别方法、装置、电子设备及存储介质。
背景技术
目前,语音识别系统的识别结果可能会含有一些错误,为了提高识别结果的准确率,可以借助纠错模块对语音识别系统的识别结果进行纠错。
但是,纠错模块纠错的精度并不高,导致纠错的准确率不高。
发明内容
本申请提供如下技术方案:
本申请一方面提供一种识别方法,包括:
获取语音识别系统识别出的待处理文本中每个词的词特征;
将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息;
将所述词特征输入到语音识别纠错模型,获得所述语音识别纠错模型得到的所述词特征的第二上下文信息,所述语音识别纠错模型为利用训练数据训练得到的,所述训练数据包含对训练文本进行纠错的数据及所述标点预测模型基于所述训练样本,得到的上下文信息;
基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息;
将所述词特征以及所述词特征的第三上下文信息输入到所述语音识别纠错模型,获得所述语音识别纠错模型对所述待处理文本进行纠错处理后得到的文本。
所述基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息,包括:
对所述词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息。
所述基于所述词特征的第一上下文信息和第二上下文信息,得到所述词特征的第三上下文信息,包括:
对所述词特征的第一上下文信息和第二上下文信息进行点积运算处理,得到第三上下文信息。
所述基于所述词特征的第一上下文信息和第二上下文信息,得到所述词特征的第三上下文信息,包括:
将所述词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型中,得到所述第一机器学习模型输出的第三上下文信息。
所述标点预测模型包含标点预测子模型和自编码器;
所述将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息,包括:
将所述词特征输入到所述自编码器,获得所述自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数,所述待处理词特征为所述待处理文本中排列在所述词特征之前的第一个词特征;
基于所述自编码器的中间层对所述待处理词特征的第一子上下文信息进行处理时所使用的参数及所述词特征,得到待使用特征;
将所述待使用特征输入到所述标点预测子模型的中间层,获得所述标点预测子模型的中间层对所述待使用特征进行处理,得到的所述词特征的第一上下文信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110281812.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三工位推进梁及其锚固装置
- 下一篇:一种基于目标识别的智能交通预警系统