[发明专利]语音处理方法、介质、装置和计算设备有效
申请号: | 201810087661.0 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108364654B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 臧阳光;沙泓州 | 申请(专利权)人: | 网易乐得科技有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/08;G10L17/20;G10L15/26;G10L25/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;王卫忠 |
地址: | 100193 北京市海淀区西北旺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 介质 装置 计算 设备 | ||
1.一种语音处理方法,包括:
获取待处理的录音文件;
从所述录音文件中提取指定人员的声纹特征,得到第一声纹特征;
根据所述第一声纹特征,从录音库中查找与所述第一声纹特征相匹配的目标录音数据;其中,所述目标录音数据包括预定数量个测试录音,所述预定数量个测试录音的总时长大于或等于预定时长;
从所述目标录音数据中提取第二声纹特征;
基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据。
2.根据权利要求1所述的方法,其中,从所述录音文件中提取指定人员的声纹特征,包括:
截取所述录音文件中预定时间段的录音数据;
从所述预定时间段的录音数据中提出所述指定人员的声纹特征。
3.根据权利要求2所述的方法,其中,截取所述录音文件中预定时间段的录音数据,包括:
删除所述录音文件中位于最前端的指定类型的录音数据,得到预处理后的录音文件;
在所述预处理后的录音文件的最前端截取所述预定时间段的录音数据。
4.根据权利要求3所述的方法,其中,所述指定类型的录音数据包括静音数据和/或铃声数据。
5.根据权利要求2所述的方法,其中,从所述预定时间段的录音数据中提出所述指定人员的声纹特征,包括:
通过所述预定时间段的录音数据对通用背景模型进行训练;
基于训练后的所述通用背景模型的参数,通过自适应高斯混合模型输出所述指定人员的声纹特征。
6.根据权利要求1所述的方法,其中,根据所述第一声纹特征,从录音库中查找与所述第一声纹特征相匹配的目标录音数据,包括:
将所述录音库中的录音数据切分为多个预定长度的测试录音;
计算所述测试录音的声纹特征与所述第一声纹特征的相似度;
选取相似度大于第一预定阈值的预定数量个测试录音,并根据选取出的测试录音生成所述目标录音数据。
7.根据权利要求6所述的方法,其中,根据选取出的测试录音生成所述目标录音数据,包括:
对选取出的测试录音进行拼接处理,以得到所述目标录音数据。
8.根据权利要求1所述的方法,其中,从所述目标录音数据中提取第二声纹特征,包括:
通过所述目标录音数据对通用背景模型进行训练;
基于训练后的所述通用背景模型的参数,通过自适应高斯混合模型输出所述第二声纹特征。
9.根据权利要求1所述的方法,其中,基于所述第二声纹特征确定所述录音文件中包含的所述指定人员的声音数据,包括:
按照说话人员的不同对所述录音文件进行切分,得到切分后的录音数据;
从所述切分后的录音数据中查找与所述第二声纹特征相匹配的录音数据作为所述指定人员的声音数据。
10.根据权利要求9所述的方法,其中,按照说话人员的不同对所述录音文件进行切分,包括:
基于检验一段声音数据中是包含一个人员的声音数据还是包含多个人员的声音数据,构造假设检验得分函数;
根据所述假设检验得分函数以预定长度的检验窗口对所述录音文件进行检验,以确定所述录音文件的切割点;
基于确定的切割点,对所述录音文件进行切分。
11.根据权利要求10所述的方法,其中,确定所述录音文件的切割点,包括:
若根据所述假设检验得分函数确定所述录音文件中任一段录音的得分大于第二预定阈值,则根据所述假设检验得分函数确定所述任一段录音中的得分最大点,并将所述得分最大点作为所述切割点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易乐得科技有限公司,未经网易乐得科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810087661.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音数据处理方法及处理装置
- 下一篇:语音处理方法、介质、装置和计算设备