[发明专利]基于组合特征的汉语声韵母可视化方法无效
申请号: | 201210252989.6 | 申请日: | 2012-07-21 |
公开(公告)号: | CN102820037A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 韩志艳;伦淑娴;王健;于忠党;郭艳东;尹作友;郭兆正;王巍;韩建群;苏宪利 | 申请(专利权)人: | 渤海大学 |
主分类号: | G10L21/06 | 分类号: | G10L21/06 |
代理公司: | 锦州辽西专利事务所 21225 | 代理人: | 李辉 |
地址: | 121000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于组合特征的汉语声韵母可视化方法,步骤为:语音信号预处理;计算出预处理后语音信号的帧数作为其音长特征,采用频域峰值幅度大小和平均幅度大小的对比关系表示谐振强度特征,得到每帧信号的共振峰特征值,计算出鲁棒特征参数WPTC1~WPTC20和PMUSIC-MFCC1~PMUSIC-MFCC12;采用音长特征和谐振强度特征分别对图像宽度信息和图像长度信息进行编码;采用共振峰特征对主颜色信息进行编码;所述32个特征参数作为神经网络的输入,神经网络的输出即为相应的图案信息,依次对应着23个声母和24个韵母;把宽度、长度、主颜色与图案信息融合在一幅图像中在显示屏上显示。优点是:可帮助聋哑人进行语言训练,建立、完善听觉认知,形成正确的言语反射,恢复自身的语音功能。 | ||
搜索关键词: | 基于 组合 特征 汉语 声韵 可视化 方法 | ||
【主权项】:
1.一种基于组合特征的汉语声韵母可视化方法,其特征是:1.1、语音信号预处理通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;1.2、特征提取(a) 计算出预处理后的语音信号的帧数作为其音长特征;(b) 采用频域峰值幅度大小和平均幅度大小的一种对比关系表示谐振强度特征,对于分帧后的语音信号,每帧语音信号的谐振强度为:
其中,复数
表示第
个谐波分量变换到频域后的系数;
表示该帧信号的谐波个数;
表示每帧语音信号的频域变换值;
表示取平均值;
根据不同类型的识别语音进行调整,其中
;(c) 采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰特征,得到每帧信号的共振峰特征值F1,F2,F3;(d)计算出基于小波包变换的语音信号鲁棒特征参数WPTC:WPTC1~WPTC20;(e)计算出基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC:PMUSIC-MFCC1~PMUSIC-MFCC 12;1.3、宽度信息编码采用音长特征来对图像宽度信息进行编码,根据显示区域像素的大小,把音长特征通过线性变换转化为图像宽度信息;1.4、长度信息编码采用谐振强度特征来对图像长度信息进行编码,根据显示区域像素的大小,把各帧谐振强度特征平均值通过线性变换转化为图像长度信息;1.5、主颜色编码采用共振峰特征来对主颜色信息进行编码,把所有的共振峰特征值F1,F2,F3分别求平均值,然后通过R=5F1/F3,G=3F3/5F2,B=F2/3F1,将其转换成主颜色信息;1.6、神经网络设计所述的神经网络为三层BP神经网络,其中输入层有32个神经元,输出层有6个神经元;1.7、图案信息编码WPTC1~WPTC20与PMUSIC-MFCC1~PMUSIC-MFCC 12共32个组合特征作为神经网络的输入,神经网络的输出即为相应的图案信息;神经网络的输出层有6个神经元,均采用二进制编码,共有64个不同的码,其中只用前47个码,依次对应着23个声母b、p、m、f、d、t、n、l、g 、k 、h、 j、 q、 x、 zh、 ch 、sh 、r 、z 、c 、s、 y、 w和24个韵母a 、o 、e i、 u、 ü 、ai、 ei、 ui、 ao、 ou、 iu 、ie 、üe、 er、 an 、en 、in 、un、 ün、 ang、 eng、 ing、 ong;1.8、图像合成图像合成时,把宽度信息、长度信息、主颜色信息与图案信息融合在一幅图像中在显示屏上显示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海大学,未经渤海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210252989.6/,转载请声明来源钻瓜专利网。