[发明专利]语音识别方法、装置及电子设备在审
申请号: | 202210309839.8 | 申请日: | 2022-03-28 |
公开(公告)号: | CN114582324A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 郭莉莉;洪密;张银平 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘翠香 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 | ||
本申请公开了一种语音识别方法、装置及电子设备,该方法包括:获得待识别的语音信号;基于连续时序分类模型,确定语音信号的候选文本识别结果,候选文本识别结果包括语音信号对应的至少一个候选字符序列,候选字符序列包括至少一个字符,字符属于实体字符和空白占位符中的一种;确定候选字符序列中各实体字符关联的空白占位符的占位符分布特征;基于配置的不同实体字符关联空白占位符的可能分布特征及可能分布特征的出现概率,确定候选字符序列中各实体字符对应的占位符分布特征的出现概率;基于至少一个候选字符序列以及候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果。本申请的方案可以提高语音识别的准确性。
技术领域
本申请涉及语音处理技术领域,更具体地说,涉及一种语音识别方法、装置及电子设备。
背景技术
传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的标签才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代,来确保对齐更准确,这本身就是一个比较耗时的工作。
与传统的声学模型训练相比,采用连续时序分类(Connectionisttemporalclassification,CTC)作为损失函数的声学模型训练,是一种完全端到端的声学模型训练,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以完成采用CTC模型的训练,使得基于CTC进行语音识别的应用日益增多。然而,目前基于CTC的语言识别很容易出现漏检的问题,从而可能会影响到语音识别的准确度。
发明内容
本申请提供了一种语音识别方法、装置及电子设备。
其中,一种语音识别方法,包括:
获得待识别的语音信号;
基于连续时序分类模型,确定所述语音信号的候选文本识别结果,所述候选文本识别结果包括所述语音信号对应的至少一个候选字符序列,所述候选字符序列包括至少一个字符,所述字符属于实体字符和空白占位符中的一种;
确定所述候选字符序列中各实体字符关联的空白占位符的占位符分布特征;
基于配置的不同实体字符关联空白占位符的可能分布特征及所述可能分布特征的出现概率,确定所述候选字符序列中各实体字符对应的占位符分布特征的出现概率;
基于所述至少一个候选字符序列以及所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果。
在一种可能的实现方式中,所述配置的不同实体字符关联空白占位符的可能分布特征及所述可能分布特征的出现概率,通过如下方式得到:
获得多个语音信号样本;
基于训练出的连续时序分类模型,确定所述语音信号样本对应的至少一种字符序列样本,所述字符序列样本包括至少一个字符样本,所述字符样本属于实体字符和空白占位符中的一种,所述训练出的连续时序分类模型为基于所述多个语音信号样本训练得到的;
确定所述字符序列样本中各实体字符关联的空白占位符的分布特征;
基于所述字符序列样本中各实体字符关联的空白占位符的分布特征,确定不同实体字符关联空白占位符的可能分布特征以及所述可能分布特征的出现概率。
在又一种可能的实现方式中,所述基于所述至少一个候选字符序列以及所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定文本识别结果,包括:
基于所述候选字符序列中各实体字符对应的占位符分布特征的出现概率,确定所述候选字符序列的第一序列出现概率;
结合所述候选字符序列的第一序列出现概率,确定与所述至少一个候选字符序列对应的文本识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210309839.8/2.html,转载请声明来源钻瓜专利网。