[发明专利]一种基于性别和语言的说话人识别方法及系统在审

申请号：	202210014706.8	申请日：	2022-01-07
公开（公告）号：	CN114360551A	公开（公告）日：	2022-04-15
发明（设计）人：	徐文渊;冀晓宇;程雨诗;高逸卓	申请（专利权）人：	浙江大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于性别语言说话识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于性别和语言的说话人识别方法及系统，属于说话人识别领域。包括：获取待识别语音数据，具体为包含有效说话人音频的音频文件；将音频文件通过降噪处理得到低噪声的语音音频；将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图；将语音频谱特征图输入ResNet模型中得到语音特征向量；将语音特征向量输入到多目标学习模型中，识别得到说话人身份、说话人性别以及说话人使用的语言信息；通过将三个识别任务结果进行加权融合，得到待识别语音数据对应的说话人识别结果。本发明综合利用了语音中带有的性别信息和语言信息，有效的提高了说话认识别的鲁棒性，特别是在说话人语音变化的情况下，识别精度高。

技术领域

本发明涉及说话人识别领域，尤其涉及一种基于性别和语言的说话人识别方法及系统。

背景技术

随着人工智能的不断发展，越来越多的智能身份识别技术被应用在了生活中，包括了人脸识别、指纹识别以及近些年来兴起的声纹识别。声纹识别又称为说话人识别，通过分析一段音频内容来识别该音频是属于哪一位说话人的。说话人可以被用来进行身份认证，因为其便捷的特性而被广泛关注。

现有技术中，对于说话人识别的方法大多关注单一因素即说话人本身的识别，这种方式要求说话人在注册声纹以及识别声纹两个阶段，需要保持说话的方式相似，当说话人使用不同音调时，会导致识别准确度下降。

发明内容

本发明要解决的技术问题，在于提供一种基于性别和语言的说话认识别方法及系统，结合语音内容中包含的性别信息以及语言信息进行说话人识别，解决当语言音调变化情况下，单一因素识别方法的准确率下降的技术问题。

为实现上述目的，本发明采用下述技术方案：

本发明的第一个目的在于提供一种基于性别和语言的说话人识别方法，所述方法包括：

获取待识别语音数据，所述的语音数据为包含有效说话人音频的wav格式的音频文件；

将音频文件通过降噪处理得到低噪声的语音音频；

将语音音频通过SMAC特征提取得到语音频谱特征图；