[发明专利]基于时序神经网络模型补全语音数据的方法在审

申请号：	202011112445.0	申请日：	2020-10-16
公开（公告）号：	CN112259087A	公开（公告）日：	2021-01-22
发明（设计）人：	梁敏	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/183;G10L15/26
代理公司：	成都虹桥专利事务所(普通合伙) 51124	代理人：	吴中伟
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于时序神经网络模型语音数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音技术领域，具体涉及一种基于时序神经网络模型补全语音数据的方法，实现了对残缺语音数据自动补全，极大地提高了效率，并且同时对补全后的语音数据进行验证，保证了语音补全的正确率。本发明将原始完整的语音数据集随机挖空任意时长的语音单元后，作为缺失的语音数据集；将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集；将缺失的文本数据集输入时序神经网络模型，根据输出结果调整时序神经网络模型中的损失函数对时序神经网络模型不断优化，直到补全输出后的文本数据接近原始文本数据。本发明适用于语音数据补全。

技术领域

本发明涉及语音技术领域，具体涉及一种基于时序神经网络模型补全语音数据的方法。

背景技术

随着互联网的快速发展，生活变得越来越智能化，因此人们也越来越习惯地使用智能终端完成各种需求。语音交互作为智能终端中人机交互主流的交流应用之一，也是越来越受到用户的青睐。智能终端都是基于使用的音频数据集对用户输入的语音进行识别，因此终端使用的语音数据集的准确性严重影响着智能终端所作出的反馈。

由于语音采集输入语音过程中可能出现的意外，同时语音类数据集由于来源广且标注人员良莠不齐，常出现很多的错误。这些错误里最难以解决的就是语音数据本身的缺失。这样语音数据由于年龄、性别、音质、口音、使用场景、录音设备等原因而识别错误导致无法识别，还造成成段音频数据的缺失。对于这些实际场景，传统的修正方法是对语音反复多次的识别，人工在标注语音数据集时也反复确认，但实际效果并不理想。

目前现有技术都是如何对语音进行高质量高效的识别，对语音数据的补全也仅仅是人工辅助的形式，效率非常低。

发明内容

本发明的目的是提供一种基于时序神经网络模型补全语音数据的方法，实现了对残缺语音数据自动补全，极大地提高了效率，并且同时对补全后的语音数据进行验证，保证了语音补全的正确率。

本发明采取如下技术方案实现上述目的，基于时序神经网络模型补全语音数据的方法，包括：

步骤(1)、将原始完整的语音数据集随机挖空任意时长的语音单元后，作为缺失的语音数据集；

步骤(2)、将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集；

步骤(3)、将缺失的文本数据集输入时序神经网络模型，经时序神经网络模型补全后输出完整的文本数据集；

步骤(4)、将完整的文本数据集与原始完整的文本数据集进行相似度对比，若相似度大于设置的阈值，则获取补全后输出的完整的文本数据集，以及当前的时序神经网络模型，否则进入步骤(5)；

步骤(5)、调整时序神经网络模型中的损失函数，进入步骤(3)。

进一步的是，基于时序神经网络模型补全语音数据的方法，还包括：

步骤(6)、提取任意时长与挖空的语音单元相邻的前后语音单元，并将挖空的语音单元转化为挖空的文本数据；

步骤(7)、将提取出的语音单元转换为对应的文本数据，并提取出该语音单元的音色特征集；