[发明专利]一种声纹库的生成方法和装置有效
| 申请号: | 202010071212.4 | 申请日: | 2020-01-21 |
| 公开(公告)号: | CN111063360B | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 张晴晴;杨金富;罗磊;刘天宇;鲁旻;马光谦;汪洋 | 申请(专利权)人: | 北京爱数智慧科技有限公司 |
| 主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18 |
| 代理公司: | 北京智沃律师事务所 11620 | 代理人: | 吴志宏 |
| 地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 声纹 生成 方法 装置 | ||
本发明公开一种声纹库的生成方法和装置,该方法包括以下步骤:获取目标说话人的音频数据库,从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;提取所述标准音频段的第一声纹特征;提取所述音频数据库中的候选音频段的第二声纹特征;计算所述第一声纹特征与所述第二声纹特征之间的相似度;计算所述候选音频段的离散系数;根据所述相似度和所述离散系数,计算所述候选音频段的置信度;在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库。本发明依靠机器学习的方法自动生成声纹库,能够减少人为失误,提高数据精度,并降低成本。
技术领域
本发明涉及音频技术领域,特别涉及一种声纹库的生成方法和装置。
背景技术
声纹识别,又称说话人识别,是一种从语音信号中提取说话人相关特征,并对该特征进行分析以判断说话人身份的技术。声纹识别广泛应用于安全监控、智能设备唤醒与交互等领域,并从传统的GMM-UBM模型发展到近年来的ivector特征以及最新的深度学习方法,取得了大幅进步。
然而,在真实、自然的环境下,声纹识别依然面临巨大的挑战,原因在于:背景中的噪音、音乐和其他人声的叠加,以及录音设备和信道等因素,影响到音频信号的质量;且说话人的声音特性受到情绪、年龄、身体状况等因素的影响而有所差异。最新的深度学习技术可在大数据量的条件下发挥巨大优势,但如何获取大量的、覆盖上述问题的数据一直是亟待解决的问题。
发明内容
本发明提供了一种声纹库的生成方法和装置,以解决现有技术无法大量获取声纹数据的缺陷。
本发明提供了一种声纹库的生成方法,包括以下步骤:
获取目标说话人的音频数据库,从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
提取所述标准音频段的第一声纹特征;
提取所述音频数据库中的候选音频段的第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征之间的相似度;
计算所述候选音频段的离散系数;
根据所述相似度和所述离散系数,计算所述候选音频段的置信度;
在所述置信度大于或等于预设阈值的情况下,将所述候选音频段保存到所述声纹库。
可选地,所述提取所述音频数据库中的候选音频段的第二声纹特征之前,还包括:
对所述音频数据库中除所述标准音频段之外的其他音频进行分割,得到多个候选音频段。
可选地,所述获取目标说话人的音频数据库,具体包括:
使用预设信息和所述目标说话人的人名作为搜索条件,爬取网络视频;
从所述网络视频中提取所述目标说话人的音频数据库。
可选地,所述预设信息为“访谈”和/或“采访”字样。
可选地,所述计算所述候选音频段的离散系数,包括:
使用预设时长以及预设移动步长的时间窗,将所述候选音频段分割成多个音频片段;
提取每个所述音频片段的声纹特征,根据多个所述音频片段的声纹特征,计算所述候选音频段的离散系数。
本发明还提供了一种声纹库的生成装置,包括:
获取模块,用于获取目标说话人的音频数据库;
标注模块,用于从所述音频数据库中标注出一个或多个标准音频段,将所述标准音频段保存到声纹库;
第一提取模块,用于提取所述标准音频段的第一声纹特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱数智慧科技有限公司,未经北京爱数智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010071212.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液压打泥装载机
- 下一篇:一种模具钢及其制备方法





