[发明专利]针对目标说话人提取的单通道语音分离方法及系统有效
申请号: | 202011057722.2 | 申请日: | 2020-09-29 |
公开(公告)号: | CN111899757B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 史慧宇;欧阳鹏 | 申请(专利权)人: | 南京蕴智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L25/30 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
地址: | 211100 江苏省南京市江宁区麒麟*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 目标 说话 提取 通道 语音 分离 方法 系统 | ||
本发明提供了针对目标说话人提取的单通道语音分离方法,包括:获取目标说话人混合语音样本。根据初始化后的初始深度神经网络模型参数,训练初始深度神经网络模型获取第一深度神经网络模型。生成第二深度神经网络模型。初始化第二深度神经网络模型。获取当前深度神经网络模型。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。本发明中的针对目标说话人提取的单通道语音分离方法比现有的目标说话人提取单通道语音分离方法能在提高分离准确度、说话可懂度的同时,缩小算法的网络模型尺寸,减少计算内存,增强算法落地实现的有效性。同时,本发明还提供了针对目标说话人提取的单通道语音分离系统。
技术领域
本发明语音信号处理领域。本发明具体涉及针对目标说话人提取的单通道语音分离方法及系统。
背景技术
随着人工智能技术的发展,神经网络算法由于其高预测精度称为目前最先进的技术。近些年高端智能移动设备得到快速发展,其中涉及的语音分离和语音识别等技术中,神经网络和深度学习算法成为主流。在众多的神经网络结构中,递归神经网络(RNN)由于读取输入时可在循环内跨神经元携带信息而被广泛使用在语音信号处理任务中,具有代表性的长短时记忆神经网络(LSTM)作为最受欢迎的RNN类型在语音分离任务中取得巨大的成功。
多种人工智能任务的发展带来的结果是,语音分离算法的精度要求越来越高,因为在智能音箱、助听器、会议记录等应用设备中,麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰,若是不能准确将其中的目标语音分离出来,将会严重影响到后端的应用,出现目标语音不清晰、语义识别不准或记录不准确的问题。然而,随着精度的要求越来越高,研发出的网络模型也而越来越大,这就导致网络计算的复杂度和计算机内存需求大规模增加。神经网络模型的压缩是一种减少计算量和内存的有效方法。最近研发人员已经研究出了多种模型压缩技术,比如权重剪枝就是一种显著的缩小模型的方式。
目前的语音分离算法大多数将重点放在语音分离后的准确程度上,而对如何在提高分离精确度的同时,减小模型尺寸,提高算法的速度,增加实时性方面研究较少。此问题关系到研究出的语音分离算法能否成功在应用设备上取得良好的效果,增加用户的体验舒适度,对技术的产品落地起决定性作用。
发明内容
本发明的目的是提供一种针对目标说话人提取的单通道语音分离方法,其比现有的目标说话人提取单通道语音分离方法能在提高分离准确度、说话可懂度的同时,缩小算法的网络模型尺寸,减少计算内存,增强算法落地实现的有效性。
本发明中的一种针对目标说话人提取的单通道语音分离系统。其实现的网络模型尺寸小、计算内存少,算法落地实现的有效性强。
本发明一方面提供了针对目标说话人提取的单通道语音分离方法,针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。针对目标说话人提取的单通道语音分离方法包括:
步骤S101,通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。
步骤S102,随机初始化初始深度神经网络模型的初始深度神经网络模型参数。
步骤S103,根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练初始深度神经网络模型获取第一深度神经网络模型。
步骤S104,在第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型。
步骤S105,将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数,初始化第二深度神经网络模型。对ADMM模块的参数初始化。
步骤S106,根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练第二深度神经网络模型获取当前深度神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京蕴智科技有限公司,未经南京蕴智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057722.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单通道语音分离方法和装置
- 下一篇:远心光路畸变中心定位方法