[发明专利]基于多特征匹配的声纹识别方法及装置在审
申请号: | 202110344550.5 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113192513A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 杭州鹿扬科技有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/02;G10L21/0272;G10L25/63 |
代理公司: | 北京国翰知识产权代理事务所(普通合伙) 11696 | 代理人: | 张天辰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 匹配 声纹 识别 方法 装置 | ||
1.基于多特征匹配的声纹识别方法,其特征在于,所述方法执行以下步骤:
步骤1:采集待识别的声音数据,提取声音数据的声纹,生成声纹的波形,基于生成的声纹的波形,对声纹进行噪声分离;得到声音区间对应的声音声纹波形;
步骤2:对声音声纹波形进行基于情绪空间的波形映射,得到情绪空间下的情绪映射波形;再对声音声纹波形进行基于识别空间的波形映射,得到识别空间下的识别映射声纹波形;
步骤3:基于情绪映射波形进行第一次特征分析,得到声音声纹波形的情绪特征;基于识别映射波形进行第二次特征分析,得到声音声纹波形的识别特征;
步骤4:将识别特征和情绪特征进行特征融合,以得到声纹波形融合后的特征,将该特征作为待识别目标;
步骤5:对待识别目标进行基于分帧处理,以得到声纹波形融合后的特征的每一音帧的特征;使用两个识别样本对分帧处理后的待识别目标进行匹配识别,通过匹配识别得到相似部分;
步骤6:在两个样本中找到相似部分分别对应的内容,对内容取加权平均,完成相似部分的识别;
步骤7:删除相似部分,对于非相似部分,再使用另外两个识别样本对分帧处理后的待识别目标进行匹配识别,通过匹配识别得到新的相似部分;
步骤8:在两个样本中找到新的相似部分分别对应的内容,对内容取加权平均,完成新的相似部分的识别;循环执行步骤7至8,直到完成所有非相似部分的识别。
2.如权利要求1所述的方法,其特征在于,所述步骤1中基于生成的声纹的波形,对声纹进行噪声分离的方法包括:通过声纹的波形特征,计算声纹的信噪比;若所述声纹的信噪比不大于门限1,则累加帧计数器,并计算所述声纹的音调特征以及信号稳定性特征;当所述帧计数器累加至时间窗口长度时,则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值,判断出所述时间窗口中含有噪声区间的几率大小;若判断出的所述时间窗口含有噪声区间的几率大于设定的阈值,则将该时间窗口中的声纹的波形作为噪声波形;若判断出的所述时间窗口含有噪声区间的几率大于设定的阈值,则将该时间窗口向后移动一个周期,再次进行判断,若判断出的所述时间窗口含有噪声区间的几率小于设定的阈值,则将该时间窗口中的声纹的波形作为声音波形,该时间窗口为声音区间,时间窗口起始点作为声音区间检测开始,时间窗口结束点作为声音区间检测结束。
3.如权利要求2所述的方法,其特征在于,所述根据输入的音频信号,计算声纹的信噪比的步骤,包括:根据输入的音频信号,获取声纹的频谱信息,将声纹的频谱划分为多个子带;根据得到的各子带,计算每个子带的信噪比;根据计算得到的每个子带的信噪比,得到声纹的信噪比。
4.如权利要求3所述的方法,其特征在于,所述步骤2中对声音声纹波形进行基于情绪空间的波形映射,得到情绪空间下的情绪映射波形的方法包括:将声音声纹波形进行曲线拟合,根据曲线拟合的结果,德奥声音波形声纹的曲线拟合表达式为:S;再构建一个情绪空间映射矩阵为:其中,A11…Amm均表示情绪空间映射矩阵中的一个映射元素;将曲线拟合表达式S进行矩阵转换,得到曲线拟合表达式的矩阵表达为S11…Smm为曲线拟合表达式中,依次代入每个横轴坐标得到的值;加入一个调和函数为:其中,σ为曲线拟合表达式代入每个横轴坐标得到的所有值的方差;最后使用如下公式对声音声纹波形进行基于情绪空间的波形映射:H=S*A*P;基于计算得到的H,还原得到情绪空间下的情绪映射波形。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州鹿扬科技有限公司,未经杭州鹿扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110344550.5/1.html,转载请声明来源钻瓜专利网。