[发明专利]基于声纹特征实现静谧通话的方法在审
申请号: | 202210666016.0 | 申请日: | 2022-06-13 |
公开(公告)号: | CN114974285A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 左宏;刘启达;郝晓宇;张堰铭 | 申请(专利权)人: | 西安宏硕铭宇科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/24;G10L17/02 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 许志蛟 |
地址: | 710000 陕西省西安市高新区高*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 特征 实现 静谧 通话 方法 | ||
本发明公开了一种基于声纹特征实现静谧通话的方法,具体包括如下步骤:步骤1,对通话者的声音进行声纹特征提取,建立声纹库;步骤2,实时采集正在通话的声音样本,将该声纹样本中的声纹特征与步骤1建立的声纹库中的声纹特征进行点积处理,得到与通话者声音相关的声纹特征;步骤3,对步骤2获取的声纹特征进行重构,获取无任何噪音的目标声音,实现静谧通话。
技术领域
本发明属于音频处理与电信通话技术领域,涉及一种基于声纹特征实现静谧通话的方法。
背景技术
每个人都具有独特的声纹特征,音质、音长、语速、韵律等特征都存在差异。因此,声纹特征就像指纹特征一样,具有独特性和可识别性,且声纹特征是更加稳定的生物特征,基于此,可以对不同的声音进行有效区分。
在某些应用场景,例如,语音通话时,在大街上、地铁车厢内、高速行驶的汽车,因复杂的环境噪音不仅导致通话端的声音品质降低,而且受话端无法听清;音乐录制时,为了提高录制质量,降低背景噪音,需要采用价值昂贵的录音棚进行录制,且需要在特定的地点录制。
发明内容
本发明的目的是提供一种基于声纹特征实现静谧通话的方法,该方法能够提取并放大语音输入端的目标声音,滤除背景音及其他人的杂音等,极大的提高通话、会议及录音质量,提升用户体验。
本发明所采用的技术方案是,基于声纹特征实现静谧通话的方法,具体包括如下步骤:
步骤1,对通话者的声音进行声纹特征提取,建立声纹库;
步骤2,实时采集正在通话的声音样本,将该声纹样本中的声纹特征与步骤1建立的声纹库中的声纹特征进行点积处理,得到与通话者声音相关的声纹特征;
步骤3,对步骤2获取的声纹特征进行重构,获取无任何噪音的目标声音,实现静谧通话。
本发明的特点还在于:
步骤1中,采用线性倒谱系数法、梅尔倒谱系数法或感知线性预测系数法中的一种进行声纹特征提取。
步骤2中,将实时采用的声音样本的声纹特征与步骤1建立的声纹库中的声纹特征进行小波变换或傅里叶变换,得到与通话者声音相关的声纹特征。
步骤2中,所述小波变换或快速傅里叶变换处理过程中,当嘈杂声场的声纹特征中包含通话者的目标声纹特征时,嘈杂声场的声纹特征与通话者的目标声纹特征二者的点积结果为非零,而与通话者声纹特征没有关联的其它杂音声纹特征,通过嘈杂声场的声纹特征与通话者的目标声纹特征二者的点积处理,结果均为零。
步骤3中,对步骤2中经过小波变换或者傅里叶变换后所得到得非零部分进行逆变换,由傅里叶逆变换可知,对非零部分的ω进行积分,就可将频率为ω的信号还原,即只含有目标声音,其它声音均被屏蔽处理,实现静谧通话。
本发明的有益效果是,可应用于语音通话、高清会议系统及“虚拟录音棚”等场景,能够有效在通话、会议、录音等功能中,提取并放大语音输入端的目标声音,滤除背景及其他人的杂音等,极大的提高通话、会议及录音质量,提升用户体验。
附图说明
图1是本发明基于声纹特征实现静谧通话的方法的流程图;
图2是本发明基于声纹特征实现静谧通话的方法中采用的梅尔频率倒谱系数法进行声纹特征提取的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安宏硕铭宇科技有限公司,未经西安宏硕铭宇科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210666016.0/2.html,转载请声明来源钻瓜专利网。