[发明专利]声纹聚类的方法、装置、设备和存储介质在审
申请号: | 202211061539.9 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115440227A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 陈芬 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/06;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张欣然 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 方法 装置 设备 存储 介质 | ||
本申请提供一种声纹聚类的方法、装置、设备和存储介质,方法包括,获得声纹向量;对多个声纹向量进行分组聚类,获得分组聚类结果;判断分组聚类结果是否符合预设的递归条件;若分组聚类结果不符合递归条件,对分组聚类结果中的聚类簇进行分组聚类,直至分组聚类结果符合递归条件为止;根据符合递归条件的分组聚类结果确定最终聚类结果。本方案通过对首次聚类后得到的聚类簇进行分组聚类,大幅度提高声纹聚类的效率。
技术领域
本发明涉及聚类技术领域,特别涉及一种声纹聚类的方法、装置、设备和存储介质。
背景技术
随着大数据时代来临,声纹数据规模急速膨胀,利用传统的聚类算法进行声纹聚类将非常耗时,如层次聚类算法的时间复杂度为o(n3),随着数据量的不断增长,其聚类时间也将随之激增。在海量声纹数据场景下,声纹聚类速度成为瓶颈,聚类算法如何在时间复杂度方面取得优势是一个重要的课题。
发明内容
针对上述现有技术的缺点,本发明提供一种声纹聚类的方法、装置、设备和存储介质,以提供一种高效的声纹聚类方案。
本申请第一方面提供一种声纹聚类方法,包括:
获得声纹向量;其中,每个所述声纹向量均对应一个唯一标识;
若所述多个声纹向量的数量不小于预设的最小总数,对所述多个声纹向量进行分组聚类,获得分组聚类结果;
判断所述分组聚类结果是否符合预设的递归条件;
若所述分组聚类结果符合所述递归条件,对所述分组聚类结果中聚类簇的中心向量进行分组聚类,直至分组聚类结果不符合所述递归条件为止;
根据不符合所述递归条件的所述分组聚类结果确定最终聚类结果;
其中,所述对所述多个声纹向量进行分组聚类,包括:
按预设的子集声纹数将所述多个声纹向量划分为多个分组;
分别对每一个所述分组的声纹向量进行聚类。
可选的,所述方法还包括:
若所述声纹向量数量小于所述最小总数,直接对所述多个声纹向量进行聚类,获得最终聚类结果。
可选的,所述判断所述分组聚类结果是否符合预设的递归条件,包括:
判断所述分组聚类结果中聚类簇的数量是否小于所述最小总数;
判断所述分组聚类结果的收敛率是否小于预设的聚类收敛率;其中,所述收敛率,等于1减去,所述分组聚类结构中聚类簇的数量和本次分组聚类时所用的向量的数量的比值;
判断分组聚类的次数是否大于预设的分组次数;
若所述分组聚类结果中聚类簇的数量不小于所述最小总数,所述收敛率不小于预设的聚类收敛率,并且所述分组聚类的次数不大于所述分组次数,则确定所述分组聚类结果符合预设的递归条件;
若所述分组聚类结果中聚类簇的数量小于所述最小总数,或者所述收敛率小于预设的聚类收敛率,或者所述分组聚类的次数不大于所述分组次数,则确定所述分组聚类结果不符合所述递归条件。
可选的,所述根据不符合所述递归条件的所述分组聚类结果确定最终聚类结果,包括:
对不符合所述递归条件的所述分组聚类结果中的聚类簇进行综合聚类,获得最终聚类结果。
本申请第二方面提供一种声纹聚类的装置,包括:
获得单元,用于获得声纹向量;其中,每个所述声纹向量均对应一个唯一标识;
聚类单元,用于若所述多个声纹向量的数量不小于预设的最小总数,对所述多个声纹向量进行分组聚类,获得分组聚类结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211061539.9/2.html,转载请声明来源钻瓜专利网。