[发明专利]说话人分割聚类方法、装置、设备及存储介质在审
申请号: | 202111130129.0 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113870890A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 刘博卿;王健宗;张之勇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/27;G10L25/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁国平 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 分割 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术,提供了一种说话人分割聚类方法、装置、设备及存储介质,该方法包括:获取音频流;将音频流输入至少两个语音分割模型中,分别得到语音集合;对语音集合进行归类处理,得到多组相近语音集合;对相近语音集合进行相似性得分处理,得到相似性得分矩阵;根据相似性得分矩阵,对语音集合进行聚类处理,得到语音簇;根据语音簇,建立说话人分类模型;根据说话人分类模型,将音频流中的语音帧与说话人对准。根据本发明实施例提供的方案,利用不同固定的分割时长进行分割,分别得到语音集合,再通过归类处理和相似性得分处理,实现了既保证说话人特征的可信度,又保证说话人标签预测的准确率,使得聚类结果较好。
技术领域
本发明涉及但不限于人工智能技术领域,尤其涉及一种说话人分割聚类方法、装置、设备及存储介质。
背景技术
说话人分割聚类(Speaker Diarization),是按照说话人的身份,将不同说话人的声音区分开来的技术,解决了“谁在什么时候说了话”的问题。
目前,在分割的过程中,会按固定的单一分割时长对音频流进行分割,或者按可变的分割时长对音频流进行分割,得到多个语音段,在聚类的过程中会根据相似性结果预测说话人标签,语音段的长度很大程度上决定了聚类结果的好坏;若语音段的长度过短,语音段包含的说话人特征信息较少,提取出的说话人特征的可信度较低;若语音段的长度过长,一个语音段内很有可能包含了多个说话人的语音,降低说话人标签预测的准确率;因此,无法既保证说话人特征的可信度,又保证说话人标签预测的准确率,导致聚类结果较差。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种说话人分割聚类方法、装置、存储介质,既保证说话人特征的可信度,又保证说话人标签预测的准确率,能够使得聚类结果较好。
第一方面,本发明实施例提供了一种说话人分割聚类方法,包括:获取音频流,其中,所述音频流中的语音帧包含来自至少一个说话人的语音;将所述音频流输入至少两个语音分割模型中,分别得到语音集合,其中,所述语音分割模型被配置为按固定的分割时长进行语音分割,任意两个所述语音分割模型的分割时长不同;对所述语音集合进行归类处理,得到多组相近语音集合;对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵;根据所述相似性得分矩阵,对所述语音集合进行聚类处理,得到语音簇;根据所述语音簇,建立说话人分类模型;根据所述说话人分类模型,将所述音频流中的语音帧与所述说话人对准。
在一些实施例中,所述将所述音频流输入至少两个语音分割模型中,分别得到语音集合的步骤之后,还包括:根据每个所述语音分割模型的分割时长,分别对每个所述语音分割模型的分割起点进行相应的时移;将所述音频流输入每个所述时移后的语音分割模型中,分别得到辅助语音集合,其中,所述辅助语音集合与所述语音集合一一对应;将所述辅助语音集合与对应的所述语音集合进行合并处理,更新所述语音集合。
在一些实施例中,所述语音分割模型的分割起点的时移长度为对应的所述语音分割模型的分割时长的一半。
在一些实施例中,每个所述语音集合至少包含两个语音段;所述对所述语音集合进行归类处理,得到多组相近语音集合,包括:取所述语音分割模型中分割时长最短的语音分割模型得到的语音集合作为基准语音集合;依次计算所述基准语音集合的每个语音段与所有所述语音集合的每个语音段之间的基准长度中心距离;对于所述基准语音集合的任意一个语音段,取每一个所述语音集合中基准长度中心距离最小的语音段组成相近语音集合。
在一些实施例中,所述对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵,包括:对任意两个所述相近语音集合进行特征提取,分别得到第一特征向量集合和第二特征向量集合;将所述第一特征向量集合和所述第二特征向量集合输入得分计算模型,得到相似性得分;对所述第一特征向量集合和所述第二特征向量集合进行相似性计算,得到相似度矩阵;根据相似性得分和所述相似度矩阵,得到相似性得分矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111130129.0/2.html,转载请声明来源钻瓜专利网。