[发明专利]语音特征编码网络的训练方法、装置及存储介质在审
申请号: | 202011253225.X | 申请日: | 2020-11-11 |
公开(公告)号: | CN112489633A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 刘顺鹏;傅强;梁彧;阿曼太;蔡琳;杨满智;田野;周忠义;王杰;金红;陈晓光 | 申请(专利权)人: | 恒安嘉新(北京)科技股份公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/02;G10L15/187;G10L15/18;G10L15/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 特征 编码 网络 训练 方法 装置 存储 介质 | ||
本发明公开了一种语音特征编码网络的训练方法、装置及存储介质,该方法包括:将语音数据输入至特征编码网络,得到语音特征,特征编码网络用于提取语音数据的特征;根据语音特征确定上下文特征;根据上下文特征和语音特征确定预测信息以及预测信息的目标信息,目标信息用于标记预测信息;根据预测信息和目标信息进行二分类;根据二分类结果对特征编码网络进行优化。本申请实施例提供的语音特征编码网络的训练方案,可以充分利用没有标注的语音数据,能够获取语义特征,提高带口音的语音识别率。
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种语音特征编码网络的训练方法、装置及存储介质。
背景技术
随着移动通信和互联网的发展,语音交流越来越频繁,用户产生的语音数据也越来越多,但语音数据大部分没有对应的文本标注。在语音识别任务中,神经网络模型的训练同时需要语音和对应的文本标注。
目前在为语音添加标注时,由人工对训练样本添加标注。但是,人工增加标注需要根据经验配置,且人工标注成本很高,导致大量未标注数据闲置,利用率低下。
发明内容
本发明提供一种语音特征编码网络的训练方法、装置及存储介质,以实现有效利用未标注数据,获取更多语义信息,同时也可以提高带口音的语音识别率。
第一方面,本发明实施例提供了一种语音特征编码网络的训练方法,包括:
将语音数据输入至特征编码网络,得到语音特征,特征编码网络用于提取语音数据的特征;
根据语音特征确定上下文特征;
根据上下文特征和语音特征确定预测信息以及预测信息的目标信息,目标信息用于标记预测信息;
根据预测信息和目标信息进行二分类;
根据二分类结果对特征编码网络进行优化。
第二方面,本发明实施例还提供了一种语音特征编码网络的训练装置,包括:
语音特征确定模块,用于将语音数据输入至特征编码网络,得到语音特征,特征编码网络用于提取语音数据的特征;
上下文特征确定模块,用于根据语音特征确定上下文特征;
预测信息确定模块,用于根据上下文特征和语音特征确定预测信息以及预测信息的目标信息,目标信息用于标记预测信息;
二分类模块,用于根据预测信息和目标信息进行二分类;
优化模块,用于根据二分类结果对特征编码网络进行优化。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如本申请实施例所示的语音特征编码网络的训练方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的语音特征编码网络的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011253225.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车机械配件冷却装置
- 下一篇:一种氧化沟污水处理工艺