[发明专利]说话人分割聚类方法、装置、设备及存储介质在审
申请号: | 202111130129.0 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113870890A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 刘博卿;王健宗;张之勇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/27;G10L25/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁国平 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 分割 方法 装置 设备 存储 介质 | ||
1.一种说话人分割聚类方法,其特征在于,包括:
获取音频流,其中,所述音频流中的语音帧包含来自至少一个说话人的语音;
将所述音频流输入至少两个语音分割模型中,分别得到语音集合,其中,所述语音分割模型被配置为按固定的分割时长进行语音分割,任意两个所述语音分割模型的分割时长不同;
对所述语音集合进行归类处理,得到多组相近语音集合;
对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵;
根据所述相似性得分矩阵,对所述语音集合进行聚类处理,得到语音簇;
根据所述语音簇,建立说话人分类模型;
根据所述说话人分类模型,将所述音频流中的语音帧与所述说话人对准。
2.根据权利要求1所述的方法,其特征在于,所述将所述音频流输入至少两个语音分割模型中,分别得到语音集合的步骤之后,还包括:
根据每个所述语音分割模型的分割时长,分别对每个所述语音分割模型的分割起点进行相应的时移;
将所述音频流输入每个所述时移后的语音分割模型中,分别得到辅助语音集合,其中,所述辅助语音集合与所述语音集合一一对应;
将所述辅助语音集合与对应的所述语音集合进行合并处理,更新所述语音集合。
3.根据权利要求2所述的方法,其特征在于,所述语音分割模型的分割起点的时移长度为对应的所述语音分割模型的分割时长的一半。
4.根据权利要求1所述的方法,其特征在于,每个所述语音集合至少包含两个语音段;所述对所述语音集合进行归类处理,得到多组相近语音集合,包括:
取所述语音分割模型中分割时长最短的语音分割模型得到的语音集合作为基准语音集合;
依次计算所述基准语音集合的每个语音段与所有所述语音集合的每个语音段之间的基准长度中心距离;
对于所述基准语音集合的任意一个语音段,取每一个所述语音集合中基准长度中心距离最小的语音段组成相近语音集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵,包括:
对任意两个所述相近语音集合进行特征提取,分别得到第一特征向量集合和第二特征向量集合;
将所述第一特征向量集合和所述第二特征向量集合输入得分计算模型,得到相似性得分;
对所述第一特征向量集合和所述第二特征向量集合进行相似性计算,得到相似度矩阵;
根据相似性得分和所述相似度矩阵,得到相似性得分矩阵。
6.根据权利要求5所述的方法,其特征在于,所述得分计算模型的训练过程如下:
获取训练音频流和说话人标签,其中,所述训练音频流中的语音帧包含来自至少一个说话人的语音,所述说话人标签用于表征所述训练音频流中的语音帧对准的说话人;
将所述训练音频流输入至少两个所述语音分割模型中,分别得到语音训练集合;
对所述语音训练集合进行归类处理,得到多组相近语音训练集合;
对任意两个所述相近语音训练集合进行特征提取,分别得到第一特征向量训练集合和第二特征向量训练集合;
将所述第一特征向量训练集合和所述第二特征向量训练集合输入所述得分计算模型,得到相似性训练得分;
根据所述相似性训练得分、所述第一特征向量训练集合和所述第二特征向量训练集合,得到预测相似度;
根据所述说话人标签、所述训练音频流、所述第一特征向量训练集合和所述第二特征向量训练集合,通过相似度计算,得到真实相似度;
根据所述真实相似度和所述预测相似度,确定损失函数;
根据所述损失函数,更新所述得分计算模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111130129.0/1.html,转载请声明来源钻瓜专利网。