[发明专利]基于时序神经网络模型补全语音数据的方法在审
申请号: | 202011112445.0 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112259087A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 梁敏 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/183;G10L15/26 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 神经网络 模型 语音 数据 方法 | ||
本发明涉及语音技术领域,具体涉及一种基于时序神经网络模型补全语音数据的方法,实现了对残缺语音数据自动补全,极大地提高了效率,并且同时对补全后的语音数据进行验证,保证了语音补全的正确率。本发明将原始完整的语音数据集随机挖空任意时长的语音单元后,作为缺失的语音数据集;将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集;将缺失的文本数据集输入时序神经网络模型,根据输出结果调整时序神经网络模型中的损失函数对时序神经网络模型不断优化,直到补全输出后的文本数据接近原始文本数据。本发明适用于语音数据补全。
技术领域
本发明涉及语音技术领域,具体涉及一种基于时序神经网络模型补全语音数据的方法。
背景技术
随着互联网的快速发展,生活变得越来越智能化,因此人们也越来越习惯地使用智能终端完成各种需求。语音交互作为智能终端中人机交互主流的交流应用之一,也是越来越受到用户的青睐。智能终端都是基于使用的音频数据集对用户输入的语音进行识别,因此终端使用的语音数据集的准确性严重影响着智能终端所作出的反馈。
由于语音采集输入语音过程中可能出现的意外,同时语音类数据集由于来源广且标注人员良莠不齐,常出现很多的错误。这些错误里最难以解决的就是语音数据本身的缺失。这样语音数据由于年龄、性别、音质、口音、使用场景、录音设备等原因而识别错误导致无法识别,还造成成段音频数据的缺失。对于这些实际场景,传统的修正方法是对语音反复多次的识别,人工在标注语音数据集时也反复确认,但实际效果并不理想。
目前现有技术都是如何对语音进行高质量高效的识别,对语音数据的补全也仅仅是人工辅助的形式,效率非常低。
发明内容
本发明的目的是提供一种基于时序神经网络模型补全语音数据的方法,实现了对残缺语音数据自动补全,极大地提高了效率,并且同时对补全后的语音数据进行验证,保证了语音补全的正确率。
本发明采取如下技术方案实现上述目的,基于时序神经网络模型补全语音数据的方法,包括:
步骤(1)、将原始完整的语音数据集随机挖空任意时长的语音单元后,作为缺失的语音数据集;
步骤(2)、将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集;
步骤(3)、将缺失的文本数据集输入时序神经网络模型,经时序神经网络模型补全后输出完整的文本数据集;
步骤(4)、将完整的文本数据集与原始完整的文本数据集进行相似度对比,若相似度大于设置的阈值,则获取补全后输出的完整的文本数据集,以及当前的时序神经网络模型,否则进入步骤(5);
步骤(5)、调整时序神经网络模型中的损失函数,进入步骤(3)。
进一步的是,基于时序神经网络模型补全语音数据的方法,还包括:
步骤(6)、提取任意时长与挖空的语音单元相邻的前后语音单元,并将挖空的语音单元转化为挖空的文本数据;
步骤(7)、将提取出的语音单元转换为对应的文本数据,并提取出该语音单元的音色特征集;
步骤(8)、将对应的文本数据输入所获取的时序神经网络模型,得到补全的部分文本数据;
步骤(9)、将补全的部分文本数据与挖空的文本数据拼接起来,并将拼接后的文本数据转换为语音数据,再结合提取出的音色特征集来还原原始音频数据集;
步骤(10)、将还原的原始音频数据集与原始完整的语音数据集进行对比来验证语音补全的相似度。
进一步的是,在步骤(2)中,还包括对文本数据进行相应预处理,去掉多余的词组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011112445.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:健康信息检测方法、系统及移动终端
- 下一篇:一种生物细胞培养皿及其存放装置