[发明专利]一种基于语音雷达与视频的语音合成方法有效
申请号: | 201711100477.7 | 申请日: | 2017-11-09 |
公开(公告)号: | CN109767750B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 洪弘;李慧;顾陈;赵恒;顾旭;高茜;奚梦婷;李彧晟;孙理;朱晓华 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G06K9/00;G01S7/41 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 雷达 视频 合成 方法 | ||
本发明公开了一种基于语音雷达的新型语音合成方法,处理步骤如下:由雷达回波信号获得声带振动频率作为语音基频;由发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合,获得嘴唇的运动特征和共振峰映射关系的经验公式;将测试者发音时的嘴唇视频作为输入,获得时变共振峰;最后由获得的基频和时变共振峰进行语音合成。利用本发明的方法,可以不接触发音者体,将语音雷达与图像信息相结合,实现语音合成。
技术领域
本发明属于雷达技术领域,特别是一种基于语音雷达的新型语音合成方法。
背景技术
语音是人类交流与沟通的最有效地方式之一。语音重构与恢复一直为科学家所研究。生物医学雷达技术已扩展语音信号,并且获得的语音信号质量可与麦克风信号相媲美;近年来,国际上很多计算机技术研究者利用数字图像处理技术与数字语音处理技术相结合,将图像信息的特征与语音信息特征进行融合,提高了背景噪声下的语音识别效果,然而现有技术中尚无将雷达信号与图像信息结合进行语音合成的方法。
发明内容
本发明的目的在于提供一种基于语音雷达的新型语音合成方法。
实现本发明目的的技术解决方案为:一种基于语音雷达的新型语音合成方法,包括以下步骤:
步骤1、语音的基频信息由雷达回波信号获取,非接触式语音雷达向发音者发送连续正弦波,通过接收天线接收,对回波进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
步骤2、由发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合,获得嘴唇的运动特征和共振峰映射关系的经验公式;
步骤3、由步骤2的经验公式,以发音者嘴唇的视频信息为输入进行测试,输出为发音者发字符的音的N组时变共振峰,其中发音者发音的字符可包括英文,中文等其他语言的字符。
步骤4、由雷达回波获取的语音基频和视频获取的N组时变共振峰进行语音合成。
本发明与现有技术相比,其显著优点在于:本发明的方法能脱离麦克风,不接触发音者体,将语音雷达与图像信息相结合,实现语音合成。本发明将生物雷达,视频图像技术于一体,是将现代雷达技术应用于语音恢复的重要尝试。针对语言残疾人群,相比于手术重建语音的过程,此发明不需要介入病人体内,不造成二次伤害。相比与电子喉装置,此发明抗噪强,发音自然,合成语音有音调的变化。另外,本发明的应用场景较为广泛,除了用于语言残疾者语音恢复,还可用于刑事侦查,军事探秘等。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为本发明的基于语音雷达的新型语音合成技术系统流程图。
图2为本发明的嘴唇特征与共振峰经验公式拟合流程图。
图3为本发明的经验公式测试流程图。
图4为本发明所合成的语音“A”拟合结果与麦克风获取的共振峰的对比图,
图5分别为本发明所合成的语音“A”的麦克风录取的原始波形和合成语音的波形,其中图(a)为麦克风录取的原始波形图,(b)为合成语音的波形。
具体实施方式
结合附图,本发明的一种基于语音雷达与视频的语音合成方法,包括以下步骤:
步骤1、利用雷达回波信号获取语音的基频信息,具体为:非接触式语音雷达向发音者发送连续正弦波,接收天线接收回波信号,之后对接收到的回波信号进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
所述的雷达回波信号为雷达回波所采集的发音者的声带振动信号;发音者的发音为某个字符的音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711100477.7/2.html,转载请声明来源钻瓜专利网。