[发明专利]一种人声提取方法、系统以及人声音频播放方法及装置有效

申请号：	201310108032.9	申请日：	2013-03-29
公开（公告）号：	CN104078051B	公开（公告）日：	2018-09-25
发明（设计）人：	佘海波;王进军;刘书昌;张欣	申请（专利权）人：	南京中兴软件有限责任公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/51;G10L25/78
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	田红娟;龙洪
地址：	210012 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人声提取方法系统以及音频播放装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置，其中，所述方法包括：从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；从样本中检测出主音高；以主音高为参照频率，将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明可简便地从混合音频中提取人声。

技术领域

本发明涉及混合音频分离提取领域，尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。

背景技术

为了实现从双声道立体声等音频中提取人声并对其进行增强，以达到使语音更清晰并有效降噪的目的，需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA，Computational AuditoryScene Analysis)的音频分离技术。

听觉场景分析(Auditory Scene Analysis，ASA)技术，由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号，且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统，最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分；再将人声和背景声同时出现部分的信号通过多通道滤波器分解；对每个通道的信号进行分类，判断其属于人声还是背景声。

但是目前利用CASA技术在对每个通道的信号进行分类，提取人声的方法需要综合考虑音频信号的多种特征，如主音高、多次谐波、能量、幅度调制、起始音和终止音，提取算法复杂，计算量大。

发明内容

本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置，以解决如何简便地从混合音频中提取人声的技术问题。

为解决上述技术问题，本发明提供了一种人声提取方法，所述方法包括：

从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；

从所述样本中检测出主音高；

以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。

进一步地，

以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声，包括：

将所述原声音信号除所述样本之外的声音部分分成多帧；

将每一帧声音信号经过多通道滤波器得到多个时频单元，合并相邻的属于同一声源的时频单元作为一个片段；

如果一个片段内，超过一半以上的时频单元的基音频率与所述参照频率相等，则该片段为人声片段。