[发明专利]一种人声提取方法、系统以及人声音频播放方法及装置有效
申请号: | 201310108032.9 | 申请日: | 2013-03-29 |
公开(公告)号: | CN104078051B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 佘海波;王进军;刘书昌;张欣 | 申请(专利权)人: | 南京中兴软件有限责任公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/51;G10L25/78 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 田红娟;龙洪 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人声 提取 方法 系统 以及 音频 播放 装置 | ||
本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,其中,所述方法包括:从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;从样本中检测出主音高;以主音高为参照频率,将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明可简便地从混合音频中提取人声。
技术领域
本发明涉及混合音频分离提取领域,尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。
背景技术
为了实现从双声道立体声等音频中提取人声并对其进行增强,以达到使语音更清晰并有效降噪的目的,需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA,Computational AuditoryScene Analysis)的音频分离技术。
听觉场景分析(Auditory Scene Analysis,ASA)技术,由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号,且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统,最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分;再将人声和背景声同时出现部分的信号通过多通道滤波器分解;对每个通道的信号进行分类,判断其属于人声还是背景声。
但是目前利用CASA技术在对每个通道的信号进行分类,提取人声的方法需要综合考虑音频信号的多种特征,如主音高、多次谐波、能量、幅度调制、起始音和终止音,提取算法复杂,计算量大。
发明内容
本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,以解决如何简便地从混合音频中提取人声的技术问题。
为解决上述技术问题,本发明提供了一种人声提取方法,所述方法包括:
从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
从所述样本中检测出主音高;
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
进一步地,
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
将所述原声音信号除所述样本之外的声音部分分成多帧;
将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;
如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
进一步地,所述方法还包括:
对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。
进一步地,
所述若主音高发生改变,以发生变化的主音高作为参照频率,包括:
若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。
为解决上述技术问题,本发明还提供了一种人声音频播放方法,所述方法包括:
采用如上所述的方法从原声音信号中提取人声信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中兴软件有限责任公司,未经南京中兴软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310108032.9/2.html,转载请声明来源钻瓜专利网。