[发明专利]结合麦克风声源角度和语音特征相似度分离说话人的方法有效
| 申请号: | 201910908195.2 | 申请日: | 2019-09-25 |
| 公开(公告)号: | CN110491411B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 汪俊;李索恒;张志齐 | 申请(专利权)人: | 上海依图信息技术有限公司 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L21/0308;G10L25/51 |
| 代理公司: | 上海市汇业律师事务所 31325 | 代理人: | 唐嘉伟 |
| 地址: | 200126 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结合 麦克风 声源 角度 语音 特征 相似 分离 说话 方法 | ||
本发明公开了一种结合麦克风声源角度和语音特征相似度分离说话人的方法,该方法的步骤包括:实时计算麦克风声源信号相对于麦克风的角度变化率;根据麦克风输入的语音信号的特征相似度实时计算说话人的概率变化值;结合所述角度变化率和概率变化值,实时判定说话人是否发生变化。本发明通过将麦克风声源信号角度和语音信号相结合进行说话人分离,不仅提高了说话人分离的灵活度和准确度,而且减少了说话人分离的限制条件。
技术领域
本发明涉及计算机技术领域,特别是涉及语音分离技术,更具体的说,是涉及一种结合麦克风声源信号角度和语音信号特征相似度进行说话人分离的方法。
背景技术
目前的说话人分离技术通常采用以下两种方法:
1.利用不同说话人在麦克风前的角度不同做说话人分离。这种方法的缺点是,当多个说话人在麦克风前的角度接近的情况下,很难区别开说话人;同时,该方法要求同一次录音,麦克风得到的声源信号角度不变(声源和麦克风都不能动),才能保证精度,因此灵活性较差。
2.利用语音信号做说话人分离。该方法的优点是不依赖于硬件(麦克风),缺点是受语音信号质量影响较大(噪声、混响均对其有影响),因此准确率较差,人数多或者有多人说话均会导致性能很差。
发明内容
本发明要解决的技术问题是提供一种结合麦克风声源角度和语音特征相似度分离说话人的方法,该方法限制条件少,灵活度和准确度高。
为解决上述技术问题,本发明的结合麦克风声源角度和语音特征相似度分离说话人的方法,步骤包括:
实时计算麦克风声源信号相对于麦克风的角度变化率;
根据麦克风输入的语音信号的特征相似度实时计算说话人的概率变化值;
结合所述角度变化率和概率变化值,实时判定说话人是否发生变化。
所述角度变化率的阈值thres的计算公式为:
其中,v为说话人运动速度,r为说话人与麦克风的距离。
当v为人类慢步行走的最大速度时,所述角度变化率的阈值为thres_1;当v为人类快步行走的最大速度时,所述角度变化率的阈值为thres_2;所述概率变化值的两个阈值为threshold_1和threshold_2;所述判定说话人是否发生变化的方法为:
当所述角度变化率小于thres_1,且所述概率变化值小于threshold_2时,则判定为说话人相同;
当所述角度变化率小于thres_1,但所述概率变化值在threshold_2以上时,则判定为说话人不同;
当所述角度变化率在thres_1以上,但小于thres_2,且所述概率变化值小于threshold_1时,则判定为说话人相同;
当所述角度变化率在thres_1以上,但小于thres_2,且所述概率变化值在threshold_1以上时,则判定为说话人不同;
当所述角度变化率在thres_2以上时,则判定为说话人不同。
所述r的取值范围优选为0.2~0.5米,所述thres_1的取值范围优选为0.17~0.43°/ms,所述thres_2的取值范围优选为0.23~0.57°/ms。
所述threshold_1优选为0.3,threshold_2优选为0.5。
所述语音信号的特征包括声纹特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海依图信息技术有限公司,未经上海依图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910908195.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音分离方法、语音识别方法及相关设备
- 下一篇:声音分离方法和装置、电子设备





