[发明专利]语音人声分离方法、装置、终端及存储介质在审
| 申请号: | 202010405178.X | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN111640422A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 郑琳琳;龙洪锋 | 申请(专利权)人: | 广州国音智能科技有限公司 |
| 主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L15/22;G10L21/0272;G10L25/03 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
| 地址: | 510000 广东省广州市黄埔*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 人声 分离 方法 装置 终端 存储 介质 | ||
本申请公开了一种语音人声分离方法、装置、终端和计算机可读存储介质,语音人声分离方法通过在接收到语音人声分离请求时,获取待分离语音数据;将所述待分离语音数据按照获取时间顺序,进行有序存储;识别所述待分离语音数据中的噪声单元和人声单元;冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音人声分离方法、装置、终端及计算机可读存储介质。
背景技术
目前在一些支持语音操作的智能终端中往往需要用到语音识别的功能,即通过识别说话人的声纹以及语句得到智能终端能够执行的指令,进而根据该指令执行相应的操作。由于说话人发出的声音在传播过程中夹杂了外界的噪音和说话人在说话时产生的噪音,导致了说话人语音识别准确率低,因此需要先将说话人声音(说话人发出的声音)分离出来,再识别这部分分离出来的说话人声音,才能到达比较好的说话人声音识别效果。然而,目前说话人声音分离一般是通过识别并滤除噪声来实现语音人声分离,而噪声是不断变化的。由此可见,目前在语音人声分离过程中需要滤除噪声导致了数据处理量大,并且语音人声分离的效率和准确率低。
发明内容
本申请的主要目的在于提供一种语音人声分离方法、装置、终端及计算机存储介质,旨在解决现有技术中语音人声分离过程中数据处理量大、分离的效率和准确率低的技术问题。
为实现上述目的,本申请实施例提供一种语音人声分离方法,所述语音人声分离方法的步骤包括:
在接收到语音人声分离请求时,获取待分离语音数据;
将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别所述待分离语音数据中的噪声单元和人声单元;
冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
可选地,所述识别所述待分离语音数据中的噪声单元和人声单元的步骤包括:
按照所述获取时间顺序,将所述待分离语音数据分割为预设个数的语音片段单元;
基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元。
可选地,所述基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元的步骤包括:
依次将各所述语音片段单元与预设的噪声特征模型进行比对,获得各所述语音片段单元相对所述噪声特征模型的相似度;
依次将各所述相似度和预设特征阈值进行比较;
将所述相似度超过所述预设特征阈值的所述语音片段单元,确定为所述噪声单元;
将所述相似度不超过所述预设特征阈值的所述语音片段单元,确定为所述人声单元。
可选地,所述冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元的步骤包括:
按照所述获取时间顺序,生成所述语音片段单元的时间轴信息;
从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识;
基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元;
基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元。
可选地,所述从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州国音智能科技有限公司,未经广州国音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010405178.X/2.html,转载请声明来源钻瓜专利网。





