[发明专利]一种声纹库的生成方法和装置有效

申请号：	202010071212.4	申请日：	2020-01-21
公开（公告）号：	CN111063360B	公开（公告）日：	2022-08-19
发明（设计）人：	张晴晴;杨金富;罗磊;刘天宇;鲁旻;马光谦;汪洋	申请（专利权）人：	北京爱数智慧科技有限公司
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/18
代理公司：	北京智沃律师事务所 11620	代理人：	吴志宏
地址：	100044 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声纹生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种声纹库的生成方法和装置，该方法包括以下步骤：获取目标说话人的音频数据库，从所述音频数据库中标注出一个或多个标准音频段，将所述标准音频段保存到声纹库；提取所述标准音频段的第一声纹特征；提取所述音频数据库中的候选音频段的第二声纹特征；计算所述第一声纹特征与所述第二声纹特征之间的相似度；计算所述候选音频段的离散系数；根据所述相似度和所述离散系数，计算所述候选音频段的置信度；在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库。本发明依靠机器学习的方法自动生成声纹库，能够减少人为失误，提高数据精度，并降低成本。

技术领域

本发明涉及音频技术领域，特别涉及一种声纹库的生成方法和装置。

背景技术

声纹识别，又称说话人识别，是一种从语音信号中提取说话人相关特征，并对该特征进行分析以判断说话人身份的技术。声纹识别广泛应用于安全监控、智能设备唤醒与交互等领域，并从传统的GMM-UBM模型发展到近年来的ivector特征以及最新的深度学习方法，取得了大幅进步。

然而，在真实、自然的环境下，声纹识别依然面临巨大的挑战，原因在于：背景中的噪音、音乐和其他人声的叠加，以及录音设备和信道等因素，影响到音频信号的质量；且说话人的声音特性受到情绪、年龄、身体状况等因素的影响而有所差异。最新的深度学习技术可在大数据量的条件下发挥巨大优势，但如何获取大量的、覆盖上述问题的数据一直是亟待解决的问题。

发明内容

本发明提供了一种声纹库的生成方法和装置，以解决现有技术无法大量获取声纹数据的缺陷。

本发明提供了一种声纹库的生成方法，包括以下步骤：

获取目标说话人的音频数据库，从所述音频数据库中标注出一个或多个标准音频段，将所述标准音频段保存到声纹库；

提取所述标准音频段的第一声纹特征；

提取所述音频数据库中的候选音频段的第二声纹特征；

计算所述第一声纹特征与所述第二声纹特征之间的相似度；

计算所述候选音频段的离散系数；

根据所述相似度和所述离散系数，计算所述候选音频段的置信度；

在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库。

可选地，所述提取所述音频数据库中的候选音频段的第二声纹特征之前，还包括：

对所述音频数据库中除所述标准音频段之外的其他音频进行分割，得到多个候选音频段。