[发明专利]一种改进的多个病理单元音识别方法有效
申请号: | 201910233952.0 | 申请日: | 2019-03-26 |
公开(公告)号: | CN110070894B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 张涛;武雅琴 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 病理 元音 识别 方法 | ||
一种改进的多个病理单元音识别方法,包括:计算输入语音信号的线谱对参数;计算输入语音信号的相邻差分线谱对参数;对输入语音信号的线谱对参数进行频率弯折,得到输入语音信号的巴克线谱对参数;对输入语音信号的巴克线谱对参数进行特征增强得到增强型巴克线谱对参数;将输入语音信号的增强型巴克线谱对参数输入到深度神经网络分类器中进行多个病理单元音的识别。本发明具有更好的识别率,为后续对单元音及更复杂的字词句的嗓音修复提供了研究基础。
技术领域
本发明涉及一种病理单元音识别方法。特别是涉及一种改进的多个病理单元音识别方法.
背景技术
语音是语言传递最直接的方式,因此嗓音音质好坏直接影响着人们日常的沟通效率。据统计在美国大约有750万人患有嗓音疾病,其中教学专业人士的嗓音患病率为57.7%,非教学专业为28.8%。此外,在英国,每年大约有2200人被诊断出患有喉癌。嗓音的含混不清会极大地降低人们的生活质量,因此对病理嗓音进行识别继而修复显得尤为重要。
嗓音疾病可以通过药物和物理方式治疗,但治疗的不彻底性会对患病语者的表达产生影响,因此采用非侵入性修复方式对病理嗓音进行识别修复成为学者们研究的关键。单元音嗓音的识别修复是复杂字词句的基础。对于多个单元音嗓音识别研究,目前研究对象都是基于正常嗓音,常用到的特征参数有线性预测倒谱参数(Linear PredictionCepstrum Coefficient,LPCC)、Mel频率倒谱参数(Mel-Frequency CepstralCoefficients,MFCC)和共振峰等。然而针对病理嗓音的识别工作大都着眼于病理嗓音和正常嗓音的二分类,由于大部分声学特征参数对/a/音的识别率几乎都高于其他元音,因此国内外一般选择病理单元音/a/作为实验样本,通过提取嗓音样本的特征参数并将其输入到不同分类网络进行病理嗓音的识别。常用的识别特征有基频扰动、振幅扰动等长时特征、MPEG-7和多向回归MDR(Multidirectional regression,MDR)等回归特征等。但是应用于多个正常单元音识别的特征(LPCC、MFCC)对多个病理单元音的识别效果较差。
发明内容
本发明所要解决的技术问题是,提供一种能够进一步提高病理嗓音识别率的改进的多个病理单元音识别方法。
本发明所采用的技术方案是:一种改进的多个病理单元音识别方法,包括如下步骤:
1)计算输入语音信号的线谱对参数;
2)计算输入语音信号的相邻差分线谱对参数;
3)对输入语音信号的线谱对参数进行频率弯折,得到输入语音信号的巴克线谱对参数;
所述的频率弯折是采用如下公式:
Bark=26.81/(1+(1960/f))-0.53 (6)
式中,Bark表示Bark频率;f表示线性频率;
4)根据相邻差分线谱对参数对输入语音信号的巴克线谱对参数进行特征增强得到增强型巴克线谱对参数;
5)将输入语音信号的增强型巴克线谱对参数输入到深度神经网络分类器中进行多个病理单元音的识别。
步骤1)包括:
(1.1)进行信号预处理,包括去直流处理和分帧处理;
(1.2)对于每帧语音信号,根据设置的模型阶数p=12采用莱文逊-杜宾自相关算法计算12阶线性预测系数ai;
(1.3)由(1.2)计算得到的线性预测系数ai计算得到线性预测逆滤波器系统函数,如下:
式中,A(z)表示线性预测逆滤波器系统函数;p表示模型阶数;ai表示线性预测系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910233952.0/2.html,转载请声明来源钻瓜专利网。