[发明专利]一种说话人分割模型的优化方法、说话人分割方法及装置在审
| 申请号: | 202011566634.5 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN114676618A | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 姚升余;潘逸倩 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/08 |
| 代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 说话 分割 模型 优化 方法 装置 | ||
1.一种说话人分割模型的优化方法,其特征在于,包括:
获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;
基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;
基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;
基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;
基于所述目标对比误差函数,对原说话人分割模型的模型参数进行更新,获得目标说话人分割模型。
2.如权利要求1所述的方法,其特征在于,所述基于所述第一语音流数据获得对比误差函数的第一误差函数项,包括:
对所述第一语音流数据进行语音检测,获得第一声学特征;
按照预设窗长和预设窗移,对所述第一声学特征进行说话人身份特征提取,获得所述第一说话人的第一身份向量;
基于所述第一身份向量,获得所述第一误差函数项。
3.如权利要求2所述的方法,其特征在于,所述基于所述第一身份向量,获得所述第一误差函数项,包括:
将所述第一身份向量输入至所述原说话人分割模型,获得第一模型向量;
对所述第一模型向量求均值,获得第一模型均值向量;
计算所述第一模型均值向量和所述第一说话人的真实标签的加权平方差,获得所述第一误差函数项。
4.一种说话人分割方法,其特征在于,包括:
获取第三语音流数据;
将所述第三语音端输入至所述目标说话人分割模型中,获得说话人分割结果;其中,所述目标说话人分割模型基于权利要求1~7任一权项所述的方法获得。
5.一种说话人分割模型的优化装置,其特征在于,包括:
第一获取单元,用于获取第一语音流数据和第二语音流数据,所述第一语音流数据与第一说话人对应,所述第二语音流数据与第二说话人对应;
第一获得单元,用于基于所述第一语音流数据,获得目标对比误差函数的第一误差函数项;其中,所述第一误差函数项为最小化的对象;
第二获得单元,用于基于所述第一语音流数据和所述第二语音流数据,获得所述目标对比误差函数的第二误差函数项;其中,所述第二误差函数项为最大化的对象;
第三获得单元,用于基于所述第一误差函数项和所述第二误差函数项,获得所述目标对比误差函数;
调整单元,用于基于所述目标对比误差函数,对原说话人分割模型的模型参数进行调整,获得目标说话人分割模型。
6.一种说话人分割装置,其特征在于,包括;
第二获取单元,用于获取第三语音流数据;
输入单元,用于将所述第三语音端输入至所述目标说话人分割模型中,获得说话人分割结果;其中,所述目标说话人分割模型基于权利要求1~3任一权项所述的方法获得。
7.一种说话人分割模型的优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可以实现如权利要求1~3任一权项所述的方法步骤。
8.一种说话人分割装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可以实现如权利要求4所述的方法步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可以实现如权利要求1~3任一权项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可以实现如权利要求4所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566634.5/1.html,转载请声明来源钻瓜专利网。





