[发明专利]语音分离方法、语音分离装置、电子设备及存储介质有效

申请号：	202110237579.3	申请日：	2021-03-04
公开（公告）号：	CN112634875B	公开（公告）日：	2021-06-08
发明（设计）人：	史王雷;王秋明	申请（专利权）人：	北京远鉴信息技术有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/16;G10L15/183;G10L15/26;G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	武慧南
地址：	100000 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音分离方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音分离方法，其特征在于，所述语音分离方法包括：

获取原始音频，并以时间窗口滑窗的方式从所述原始音频中提取语谱图特征序列；

将所述语谱图特征序列输入到预先训练好的语音分割模型中，通过所述语音分割模型获取嵌入特征序列；

将所述嵌入特征序列输入到预先训练好的语音聚类模型中，通过所述语音聚类模型获得与所述嵌入特征序列对应的预测标签序列；

根据所述预测标签序列进行单个说话人语音还原，生成分离的语音，

其中，通过以下方式训练语音聚类模型：

获取多组原始音频样本，其中，每组原始音频样本中包括分别属于多个说话人的多个单说话人原始音频样本；

从所述多组原始音频样本中的每组原始音频样本获取训练嵌入特征样本序列；

利用所述多组原始音频样本的多个训练嵌入特征样本序列，根据先验概率，对所述语音聚类模型进行训练，其中，所述先验概率是指根据已预测的训练预测标签确定的下一个预测的训练预测标签发生变化的概率，所述先验概率包括说话人标签分配序列概率，

其中，所述说话人标签分配序列概率通过以下方式确定：

根据已预测的训练预测标签中的发生说话人变更的次数和已预测的训练预测标签的总数量，确定所述说话人标签分配序列概率的统计参数；

根据所述统计参数，确定所述说话人标签分配序列概率，

其中，所述统计参数表示为：

其中，表示统计参数，|D|表示所述多个训练嵌入特征样本序列中的训练嵌入特征样本序列的总数量，m表示所述多个训练嵌入特征样本序列中的第m个训练嵌入特征样本序列，m=1,…,|D|，Y_m={y_m,1, …, y_m,i, y_m,i+1, …, y_m,N}，Y_m表示与第m个训练嵌入特征样本序列对应的训练预测标签序列，|Y_m|表示与第m个训练嵌入特征样本序列对应的训练预测标签序列中的训练预测标签值的总数量，其中，y_m,i表示第m个训练预测标签序列的第i个嵌入特征样本的训练预测标签值，N表示第m个训练预测标签序列中的训练预测标签的总数量，i=1,…,N-1。

2.根据权利要求1所述的语音分离方法，其特征在于，通过以下方式获取所述训练嵌入特征样本序列：

以时间窗口滑窗的方式从每组原始音频样本的每个单说话人原始音频样本中提取每个说话人的语谱图特征样本；

将每个说话人的语谱图特征样本输入到预先训练好的语音分割模型中，获得每个说话人的训练嵌入特征样本；

将所述多个说话人的训练嵌入特征样本进行随机拼接，获取包括多个训练嵌入特征样本的训练嵌入特征样本序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京远鉴信息技术有限公司，未经北京远鉴信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110237579.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种无线协作定位网络功率分配的方法
下一篇：基于气候链处理碳资源的方法、相关装置及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音分离方法、语音分离装置、电子设备及存储介质有效

专利文献下载