[发明专利]一种语音识别方法、装置和电子设备在审
申请号: | 201910157574.2 | 申请日: | 2019-03-01 |
公开(公告)号: | CN111640424A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 周盼 | 申请(专利权)人: | 北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/25;G10L15/26;G10L19/008 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 电子设备 | ||
本发明实施例提供了一种语音识别方法、装置和电子设备,其中,所述方法包括:获取语音数据和所述语音数据对应的其他模态数据;基于注意力机制将所述语音数据和其他模态进行融合,确定所述语音数据对应的文本信息;进而够将同源的不同模态信息进行有效融合,得到更加完备的融合信息,从而,能够有效的避免现有技术中声学信息对识别结果起到主导作用导致视觉信息对识别结果准确率提升的限制,提高了语音识别的准确率。
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语音识别方法、装置和电子设备。
背景技术
随着语音识别技术的不断发展,语音识别应用在越来越多的领域;例如智能家居可以基于语音识别技术实现语音控制,又如机器同传可以基于语音识别技术实现同传,还例如智能汽车可以基于语音识别技术执行用户的语音指令如导航、开关空调/音乐等。
通常当语音环境比较安静时,语音识别的准确率会比较高,但当语音环境较为嘈杂时,语音识别的准确率会明显下降;因此为了提高嘈杂环境下语音识别的准确率,现有技术提出了一种结合声学和视觉的语音识别方法,该方法需要将声学信息和视觉信息(唇部动作)进行拼接,然后实现语音识别。但将两种信息同等对待的拼接方法,由于声音信息更丰富,区分性更好,会使得声学信息对识别结果起到主导作用,限制了视觉信息对识别结果的促进作用,语音识别的准确率依然较低。
发明内容
本发明实施例提供一种语音识别方法,以提高语音识别的准确率。
相应的,本发明实施例还提供了一种语音识别装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种语音识别方法,具体包括:获取语音数据和所述语音数据对应的其他模态数据;基于注意力机制将所述语音数据和其他模态数据进行融合,确定所述语音数据对应的文本信息。
可选地,所述基于注意力机制将所述语音数据和其他模态数据进行融合,确定所述语音数据对应的文本信息,包括:采用基于注意力的编码器-解码器模型将所述语音数据和其他模态数据进行融合,并依据融合后的信息确定所述语音数据对应的文本信息。
可选地,所述基于注意力的编码器-解码器模型包括编码器、解码器和注意力模块,所述编码器与解码器通过所述注意力模块连接。
可选地,所述编码器包括声学编码器和视觉编码器,所述解码器包括中间网络和输出网络,所述采用基于注意力机制的编码器-解码器模型将所述语音数据和其他模态数据进行融合,并依据融合后的信息确定所述语音数据对应的文本信息,包括:将所述语音数据输入至所述声学编码器中,得到对应的声学特征信息;将所述其他模态数据输入至所述视觉编码器中,得到对应的视觉特征信息;在一次解码过程中:将所述解码器上一次输出的文本信息输入至解码器中,得到所述解码器中间网络输出的状态信息;调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合,得到融合后的信息;将所述融合后的信息和状态信息输入至所述解码器的输出网络,得到所述输出网络当前输出的文本信息。
可选地,所述调用所述注意力模块依据所述状态信息对声学特征信息和视觉特征信息进行融合,得到融合后的信息,包括:调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息,确定融合权值;依据所述融合权值对所述声学特征信息和视觉特征信息进行融合,得到融合后的信息。
可选地,所述调用所述注意力模块依据所述状态信息、声学特征信息和视觉特征信息,确定融合权值,包括:调用所述注意力模块依据所述状态信息和声学特征信息,确定声学上下文向量;以及依据所述状态信息和视觉特征信息,确定视觉上下文向量;对所述声学上下文向量和视觉上下文向量进行运算,确定融合权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司,未经北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910157574.2/2.html,转载请声明来源钻瓜专利网。