[发明专利]一种可实现语音重构的彩色复语谱图构建方法有效
申请号: | 201410688088.0 | 申请日: | 2014-11-26 |
公开(公告)号: | CN104392728A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 王双维;李广岩;梁士利;王春蕾;曹晓林;郑彩侠 | 申请(专利权)人: | 东北师范大学 |
主分类号: | G10L21/06 | 分类号: | G10L21/06 |
代理公司: | 长春市东师专利事务所 22202 | 代理人: | 刘延军;李荣武 |
地址: | 130024 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种可实现语音重构的彩色复语谱图构建方法,本发明属于语音信号处理技术领域,本发明利用两个色彩通道分别表达傅里叶变换的实部和虚部,在R-G-B彩色空间中,R-B合成颜色的位置坐标对应傅里叶变换的实部和虚部,G值代表实部和虚部的符号组合。由R-G-B颜色配比可以解析出对应复数值的实部与虚部及其符号,通过对语谱图进行图像处理,然后重构语音,实现用图像处理技术对语音增强等目的,进行傅里叶逆变换,近而实现语音重构。 | ||
搜索关键词: | 一种 实现 语音 彩色 复语谱图 构建 方法 | ||
【主权项】:
一种可实现语音重构的彩色复语谱图构建方法,运用语音分帧技术,首先对语音信号进行加窗分帧,分为N点的帧信号,设共分为M帧,构成N×M分帧信号矩阵,应用FFT对N×M分帧信号矩阵的各列进行DFT计算,得出相应列的N点DFT,构成N×M时频分析矩阵
,每个元素对应某时刻、某频带的频率特性的实部和虚部,其特征是:1)、子矩阵形成模块:设
矩阵所有元素实部或虚部最大绝对值为d,构造2个矩阵![]()
![]()
和
是分别对应于
矩阵中实部
和虚部
的绝对值归一化子阵,用d作为归一化常数,是为了使
和
动态范围一致;2)、符号编码矩阵形成模块:用符号函数分别提取
式中
矩阵中实部
和虚部
的符号![]()
函数
的功能是,x小于0时输出‑1,x,大于0时输出+1,x等于0时输出0,对
、
两式求加权和,即得到实部
和虚部
的符号组合编码
上式的符号组合编码结果见表1,表1中9个计算结果标志了实部和虚部符号组合的9种状态,为了利用G通道将符号组合编码可视化,还要将表1结果零点平移并归一化,归一化由下式
由上式式可知,
的取值在0~0.01之间,结果见表2,用800做归一化常数,是使G通道的最大值远小于R通道和B通道的值,使在语谱图可视化时G通道的绿色在视觉上不干扰R‑B二原色图像的效果;表1 实部
和虚部
符号组合编码
表2 实部
和虚部
符号组合的归一化编码
;3)、RGB彩色模型驱动矩阵形成及可视化模块:构造一个3维矩阵
,实部绝对值归一化子矩阵
作为层数维的第1层,虚部绝对值归一化子矩阵
作为层数维的第3层,符号组合编码矩阵
作为层数维的第2层 ,将3维矩阵
作为RGB彩色模型的驱动矩阵,形成彩色复语谱图,其中实部归一化绝对值子矩阵
对应红色通道R,虚部归一化绝对值子矩阵
对应蓝色通道B, 符号组合编码矩阵
对应绿色通道G,由于G通道数值远小于R通道和B通道,所以彩色复语谱图在视觉上体现为R‑B二原色彩色图;4)、频域子阵提取模块:将图像处理后的二原色复语谱图所对应的3维矩阵中的第1层和第3层分别提取为
和
两个矩阵待用;5)、符号解码模块:将G通道符号组合编码取出形成归一化符号组合编码矩阵
(1)实部符号解码:首先由下式实现符号组合编码矩阵复原
则实部符号矩阵
上式中
是阶跃函数,当
时,
,当
时,
,当
时,
,
式的结果是:当
时对应实部符号为正,
的结果为+1;当
时对应实部符号为负,
的结果为‑1;当
时对应实部符号为零,
的结果为0;(2)虚部符号解码:利用实部符号解码结果
分析上式的结果,当
时对应虚部符号为正,此时
,这样
式的计算结果分别为
、
和
,均为+1,余类推;6)、时频特性矩阵形成模块:实部子矩阵和虚部子矩阵分别由
和
生成,则频域特性矩阵
;应用FFT对
进行列傅里叶逆变换,形成处理后的语音信号分帧矩阵
,将
各列首尾相接,构成一维语音序列,能够实现语音重构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北师范大学,未经东北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410688088.0/,转载请声明来源钻瓜专利网。
- 同类专利
- 语音转化手写笔迹的方法和装置-201610571390.7
- 李纯冬 - 广州视睿电子科技有限公司;广州视源电子科技股份有限公司
- 2016-07-18 - 2019-07-09 - G10L21/06
- 本发明涉及一种语音转化手写笔迹的方法和装置,语音转化手写笔迹的方法,包括以下步骤:在接收到用户输入的语音数据时,对语音数据进行语音识别处理,得到语音数据对应的语音内码;在笔迹数据库中对语音内码进行检索,在检索到与语音内码对应的笔迹内码时,从笔迹数据库中获取笔迹内码对应的手写笔迹的关键数据;关键数据包括手写笔迹的以下数据中的任意一种或任意组合:轨迹数据、截图数据和矢量图形数据;对关键数据进行笔迹还原处理,得到手写还原笔迹。本发明使得用户在可书写设备上进行书写时,可以通过语音输入,将语音数据转化成书写笔迹进行补充,过程简单,使用方便。
- 警示音离线识别方法及装置-201810422085.0
- 张立新 - 深圳市沃特沃德股份有限公司
- 2018-05-04 - 2018-11-16 - G10L21/06
- 本发明提出的警示音离线识别方法及装置,其中方法包括:获取当前声音的数字信号;将所述数字信号与预存的警示音语音库进行匹配,得到匹配的警示音;根据所述警示音语音库预先匹配的震动类型表,调用与所述警示音相对应的震动类型;根据所述震动类型产生相对应的第一震动。本发明提供一种适用于听力障碍者的警示音离线识别方法及装置。
- 利用波形的声音到触觉效应转换系统-201210131186.5
- R·巴提亚;K·甘地;C·J·奥瑞奇;J·M·克鲁兹-埃尔南德斯;H·T·提蒙;J·H·F·劳 - 意美森公司
- 2012-02-10 - 2018-03-06 - G10L21/06
- 本公开涉及利用波形的声音到触觉效应转换系统。提供了一种触觉转换系统,其截取音频数据的帧,例如数字音频信号,将帧转换为触觉信号,并通过致动器播放该生成的触觉信号来产生触觉效应。该触觉信号基于每个音频数据帧的最大值,其定义该触觉信号的振幅。该触觉信号被应用到配置为接收该触觉信号的致动器,该致动器利用该触觉信号来产生一个或多个触觉效应。
- 一种基于音符和时值建模的哼唱识谱方法及系统-201410066451.5
- 曾新;徐明;王利斌 - 曾新;徐明;王利斌
- 2014-02-26 - 2017-02-15 - G10L21/06
- 本发明适用于计算机应用技术领域,提供了一种基于音符和时值建模的哼唱识谱方法,本发明建立有包括音符音高模型集和音符时值模型集在内的乐理高斯混合模型库,所述乐理高斯混合模型库中的所有模型均事先通过乐理高斯混合模型训练单元进行模型参数训练,并可选用乐理高斯混合模型重估训练单元进行模型参数的重估训练,哼唱识谱时,对采集的用户哼唱语音分别进行音高特征提取、乐理信息解码识别、节拍提取、乐理处理与变换,最后输出成标准乐谱。本发明方法设计的哼唱识谱系统识别率高、稳定性好,还能适应个人的唱歌行为特点,可作为专业人员或音乐爱好者的创作助手和备用工具,具有推广应用价值和产业化前景。
- 创新工作室应用系统-201620435230.5
- 徐尧 - 中国共产党普洱市纪律检查委员会
- 2016-05-13 - 2016-11-16 - G10L21/06
- 本实用新型公开一种创新工作室应用系统,属会议室应用系统技术领域,其特征在于,应用系统由设备区域和讨论区域构成,所述设备区域包括录音录像设备、存储设备和处理设备,录音录像设备中的数个麦克风预先放置于在讨论区域内,录音录像设备通过无线或有线对讨论区域进行声音或视频实时传输到存储设备中存储,处理设备将存储设备内的音频内容实时转换成文字信号,将并文字信号实时显示在屏幕或者显示器上。讨论结束后,处理设备将存储设备的音频内容转换成文本内容记录下来。本实用新型提供的创新工作室的应用系统现代化、智能化,保证讨论者在工作室内全心参与讨论,更大地发挥思考空间,改善讨论效果,提高集体的创新能力。
- 一种语音处理方法及装置-201410838240.9
- 王朝民;冯俊兰 - 中国移动通信集团公司
- 2014-12-29 - 2016-07-27 - G10L21/06
- 本发明提供了一种语音处理方法及装置。所述语音处理方法,包括:对热线语音数据进行处理,获取所述热线语音数据的文本信息以及热线语音数据中涉及的用户语音信息;根据所述文本信息以及用户语音信息,获取所述热线语音数据的评价结果。上述方案,结合语音数据中的文本信息以及语音信息对客服服务的用户满意度进行评价,能够更加全面更加细致的评价客服录音的用户满意度情况,扩大了满意度评价的对象规模,同时节省了人力成本,更好的为客服热线运营提供技术支撑。
- 基于声纹识别的智能程序控制方法-201510536149.6
- 宋科璞;王东辉;田一松;李国玉;刘宏明;夏立群;解庄;花韬;贺琛;杨远超;王熙;行登海 - 中国航空工业集团公司西安飞行自动控制研究所;厦门厦工机械股份有限公司
- 2015-08-27 - 2016-03-09 - G10L21/06
- 本发明提供了一种基于声纹识别的智能程序控制方法,对采集到的音频信号进行波形识别、声音信号幅值和频率特征提取,转换为方波信号;在方波信号的每个上升沿计数一次,依次将方波信号分配到动臂、铲斗、转向三个控制通道;将三个控制通道所控制对象的运动状态反馈与控制对象的运动范围限制进行比较,当控制对象的运动状态反馈超过运动范围限制时反转正弦信号的极性,从而让控制对象的运动反向。本发明对采集到的声纹信号进行处理,并应用其生成程序控制装载机的动臂、铲斗和转向进行复合操作,实现了对装载机的智能程序控制。
- 一种正常人与聋、哑、盲人群的对话装置及其使用方法-201510258510.3
- 张开生;韦逸野;王静 - 陕西科技大学
- 2015-05-20 - 2015-08-12 - G10L21/06
- 一种正常人与聋、哑、盲人群的对话装置,包括有微处理器,微处理器内设有语音处理器和语音转换器,语音处理器通过语音识别装置与音频放大器相连;语音处理器的输出端通过盲文转换器A与阵列驱动器相连;语音转换器的输出端与语音播放器相连;语音转换器的输入端通过盲文转换器B与盲文书写装置相连;通过微处理器将正常人的语音信息转换成汉字信息,并结合汉字再转化成盲文信息,将盲文信息通过相应的阵列驱动器转换成对应盲文凸凹阵列,供聋、哑、盲人群触摸感知;聋、哑、盲人与常人对话时,在对话装置上书写盲文,将盲文转换成对应语音播放给正常人;解决了聋、哑、盲人群不能与正常人进行语言交流问题。
- 交互式语音应答业务中的语音识别方法及装置-201310698758.2
- 李志明 - 中兴通讯股份有限公司
- 2013-12-18 - 2015-06-24 - G10L21/06
- 本发明提供了一种交互式语音应答业务中的语音识别方法及装置,其中,该方法包括:获取终端用户的语音信息;将所述语音信息转换为第一文件信息;根据所述第一文件信息按照预设规则获取第二文件信息,将所述第二文件信息作为所述语音信息的识别结果。采用本发明提供的上述技术方案,解决了相关技术中,尚无有效的技术方案实现交互式语音应答IVR业务的问题。使得用户可以通过语音输入进行模糊查询,得到系统中有用的信息,从的达到用户使用IVR的目的。
- 一种可实现语音重构的彩色复语谱图构建方法-201410688088.0
- 王双维;李广岩;梁士利;王春蕾;曹晓林;郑彩侠 - 东北师范大学
- 2014-11-26 - 2015-03-04 - G10L21/06
- 一种可实现语音重构的彩色复语谱图构建方法,本发明属于语音信号处理技术领域,本发明利用两个色彩通道分别表达傅里叶变换的实部和虚部,在R-G-B彩色空间中,R-B合成颜色的位置坐标对应傅里叶变换的实部和虚部,G值代表实部和虚部的符号组合。由R-G-B颜色配比可以解析出对应复数值的实部与虚部及其符号,通过对语谱图进行图像处理,然后重构语音,实现用图像处理技术对语音增强等目的,进行傅里叶逆变换,近而实现语音重构。
- 音频转换方法、立体移动结构和按摩器-201310108548.3
- 许泽新 - 许泽新
- 2013-03-29 - 2014-10-01 - G10L21/06
- 本发明涉及音频转换的技术领域,公开了音频转换方法、立体移动结构和按摩器,提供音频转换器,其内设有节奏信号辨别元件及旋律信号辨别元件,节奏信号辨别元件提取音频信号的节拍信号,并将节拍信号转换为随节拍信号变化的电信号;旋律信号辨别元件提取音频信号的音阶和升降调信号,并将音阶和升降调信号转换为随旋律信号变化的电信号。音频转换方法使得音频信号与运动完美协和在一起,实现移动体的立体随音乐的节奏和韵律移动效果,该结构运用在按摩器、婴儿摇篮/摇椅等装置中,对人体形成听觉和肢/身体感受协调统一的体验效果,用户的听觉及身体感受和谐统一,起到情绪安抚、提升音乐素养和开发胎儿/婴儿/幼儿音乐潜能的作用。
- 检测面部变化的方法和设备-201280015366.5
- A·韦泰克;J·勒卡拉;A·韦赫考亚;J·韦尔霍;V·兰塔宁;V·苏拉卡;T·瓦尼拉;O·斯帕科夫 - 诺基亚公司
- 2012-03-22 - 2013-12-18 - G10L21/06
- 根据一个示例性实施例,提供了一种设备,该设备具有:耳机(110);非接触式近程传感器(130),其布置成在用户(140)面部附近由所述耳机(110)支撑;以及传感器电路,其配置成引起输出指示所述非接触式近程传感器(130)与所述用户(140)面部之间的距离的暂时变化的信号。
- 专利分类