[发明专利]基于组合特征的汉语声韵母可视化方法无效
申请号: | 201210252989.6 | 申请日: | 2012-07-21 |
公开(公告)号: | CN102820037A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 韩志艳;伦淑娴;王健;于忠党;郭艳东;尹作友;郭兆正;王巍;韩建群;苏宪利 | 申请(专利权)人: | 渤海大学 |
主分类号: | G10L21/06 | 分类号: | G10L21/06 |
代理公司: | 锦州辽西专利事务所 21225 | 代理人: | 李辉 |
地址: | 121000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 特征 汉语 声韵 可视化 方法 | ||
技术领域
本发明涉及一种汉语音声母和韵母的可视化方法,特别涉及一种基于组合特征的汉语声韵母可视化方法。
背景技术
语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类思维的一种依托。而对聋哑人来说,语言交流变成一件很难实现的事情,一部分聋哑人不能说话是因为他们的听觉器官遭到破坏,不能将语音信息采集到大脑。研究表明,人类听觉系统和视觉系统是两个性质不同的并具有互补性的信息系统,视觉系统是一个高度并行的信息接收和处理系统,人类眼球中视网膜上的数百万个锥状细胞通过纤维状神经组织与大脑相连,形成一个高度并行的信道,视觉信道接受信息的速率是很高的,据测量和估算,看电视时的信息接收速率大致可达到 ,这比听觉系统听语音时的信息接收速度高出上千倍,因此人们相信人类所获得的信息有70%是通过视觉获得的说法。所以对于聋哑人人来说,这无疑就是一个很大的助手,听觉的缺陷由视觉来补偿,语音不仅能听见,还可以通过多种其他形式使聋哑人“看”见。
1947年R.K.Potter和G.A.Kopp等人就提出了一种可视化方法—语谱图,随后有不同的语音研究专家开始研究改进这种语音可视化方法,比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对聋人进行训练的实时的语谱图系统,以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法,但是显示的语谱图的专业性很强,而且很难辨别记忆。尤其是对于同一个语音不同的人来说,甚至是同一个语音同一个人来说都有可能造成语谱图的变化,对于不同环境下录制的语音信号其鲁棒性能更为不好。
此外,还有一些学者对人的发音器官的运动变化以及面部表情的变化来实现语音可视化,有效地剖析了人的发音过程,但就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。
发明内容
本发明所要解决的技术问题是提供一种简单便于记忆且高鲁棒性的基于组合特征的语音可视化方法,通过该方法可帮助聋哑人进行语言训练,建立、完善听觉认知、形成正确的言语反射,重建听觉言语链,可以最大可能的恢复自身的语音功能。
本发明的技术解决方案是:
一种基于组合特征的汉语声韵母可视化方法,包括以下步骤:
1、语音信号预处理
通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;
2、特征提取
(2.1) 计算出预处理后的语音信号的帧数作为其音长特征;
(2.2) 采用频域峰值幅度大小和平均幅度大小的一种对比关系表示谐振强度特征,对于分帧后的语音信号,每帧语音信号的谐振强度为:
其中,复数表示第个谐波分量变换到频域后的系数;表示该帧信号的谐波个数;表示每帧语音信号的频域变换值;表示取平均值;根据不同类型的识别语音进行调整,其中;
(2.3) 采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰特征,得到每帧信号的共振峰特征值F1,F2,F3;
(2.4)计算出基于小波包变换的语音信号鲁棒特征参数(WPTC):WPTC1~WPTC20;
(2.5)计算出基于MUSIC和感知特性的鲁棒特征参数(PMUSIC-MFCC):PMUSIC-MFCC1~PMUSIC-MFCC 12;
3、宽度信息编码
采用音长特征来对图像宽度信息进行编码,根据显示区域像素的大小,把音长特征通过线性变换转化为图像宽度信息;
4、长度信息编码
采用谐振强度特征来对图像长度信息进行编码,根据显示区域像素的大小,把各帧谐振强度特征平均值通过线性变换转化为图像长度信息;
5、主颜色编码
采用共振峰特征来对主颜色信息进行编码,把所有的共振峰特征值F1,F2,F3分别求平均值,然后通过R=5F1/F3,G=3F3/5F2,B=F2/3F1,将其转换成主颜色信息;
6、神经网络设计
所述的神经网络为三层BP神经网络,其中输入层有32个神经元,输出层有6个神经元;
7、图案信息编码
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海大学,未经渤海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210252989.6/2.html,转载请声明来源钻瓜专利网。