[发明专利]采用感知语谱结构边界参数的语音端点检测算法有效
申请号: | 201410175090.8 | 申请日: | 2014-04-29 |
公开(公告)号: | CN104091593B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 吴迪;赵鹤鸣;陶智 | 申请(专利权)人: | 苏州大学 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L21/02 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 曹毅 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于语音识别领域,公开了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时‑频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声‑10dB到10dB的各种信噪比环境下,采用PSSB参数的端点检测算法更有效地检测出语音的端点。在‑10dB的极低信噪比下,提出的方法仍然有75.2%的正确率。 | ||
搜索关键词: | 采用 感知 结构 边界 参数 语音 端点 检测 算法 | ||
【主权项】:
一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于所述的所述的算法步骤如下:第一步:基于听觉感知特性的语音增强;采用基于听觉掩蔽特性的语音增强,在保护语音的基础上尽可能的抑制噪声;所述的语音增强方法中掩蔽阈值的计算以及语音增强系统如下:ⅰ.Bark阈功率谱语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号,信号功率谱为:(1)Bark功率谱为:(2)其中表示第i段Bark频带的能量,表示第i段最低的频率,表示第i段最高的频率;ⅱ.扩散Bark域功率谱引入扩散函数,它是一个矩阵,满足条件:(3)定义式如下:(4)表示两个频带的频带号之差;(5)ⅲ. 掩蔽能量的偏移函数及掩蔽阈值的计算(6)(7)取值在0和1之间,由语音含量决定;是第i段Bark频带的掩蔽阈值,将其改称为,其中b的含义与前面的i相同;和安静听阈的阈值:(8)相比较,取其最大值,作为最终拟合的掩蔽阈值;其中为相应的Bark掩蔽曲线;ⅳ.谱相减和减参数的调节谱相减算法采用的增益函数如下:(9)首先计算每一帧语音的不同Bark域的噪声掩蔽阈值,然后根据噪声掩蔽阈值得到自适应的减参数、:若掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,在这种情况下,减参数取它们的最小值;掩蔽阈值较低时,残留噪声对人耳的影响很大,有必要去减少它;对于每一帧m,掩蔽阈值的最小值与每帧的减参数和的最大值有关;减参数的应用有如下关系式:,(10)其中,和分别为的最小值和最大值;,和,分别是参数、的最小值和最大值;当时,;当时,;式中和分别是逐帧得到的掩蔽阈值的最小值和最大值;实验中,我们对各个参数的取值如下:ⅴ.实时噪声功率谱估计;采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法。ⅵ.语音增强系统;根据掩蔽阈值得到自适应的减参数、;第二步: 语音的二维增强;2.1二维噪声腐蚀算法对语音语谱的二维噪声腐蚀算法,由以下过程决定;首先,对语音进行短时傅立叶变换,每一帧的频谱由下式计算:(11)是第m帧语音信号,是第m帧语音信号的频谱;N为帧的长度和短时傅立叶变换点数;是Hamming窗;每帧的语音信号功率谱可以表示为:(12)即定义为语音信号的语谱;对的二维噪声腐蚀被定义为:(13)其中是结构元素,是的定义域,是的定义域;平移参数必须在的定义域内,且必须在的定义域之内;针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素被定义为下式:(14)2.2 二维语音膨胀算法针对二维噪声腐蚀的结果,二维语音膨胀算法由下式定义:(15)其中是结构元素,是的定义域,是的定义域;所以,二维语音膨胀算法中的结构元素被定义为如下形状:(16)第三步:感知语谱结构边界 (PSSB) 参数与端点检测算法3.1感知语谱结构边界(PSSB)参数本发明用公式(17)中的邻域模型逼近语音二维增强的结果的梯度; (17)是此邻域模型的中心点;而中心邻域的梯度,可以由下式表示: (18)和由公式(19)和公式(20)确定: (19) (20)即为的边界,它可以描述含噪语音语谱中的语音信号连续分布的边界信息。提出感知语谱结构边界参数PSSB如下式:(21)其中是第m帧的PSSB参数,M是总帧数;3.2 语音端点检测采用了针对语音连续性分布特点的检测方法,以此来区别对待浊音段和端点处的清音段;具体端点检测方法如下:(1)首先检测出PSSB参数大于阈值a并且连续分布m帧的语音段,此段为检测到的浊音段;(2)以此段为基础,所有跟此段连在一起并且连续大于等于阈值b的段,定义为语音段;阈值b的值取的较小,实验中,b的值取0.01到0.05都具有较好的识别结果;这样可以把PSSB数值较小的清音段识别出来;(3)此语音段的起点和终点即为语音端点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410175090.8/,转载请声明来源钻瓜专利网。