[发明专利]一种基于语音雷达与视频的语音合成方法有效
申请号: | 201711100477.7 | 申请日: | 2017-11-09 |
公开(公告)号: | CN109767750B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 洪弘;李慧;顾陈;赵恒;顾旭;高茜;奚梦婷;李彧晟;孙理;朱晓华 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G06K9/00;G01S7/41 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 雷达 视频 合成 方法 | ||
1.一种基于语音雷达与视频的语音合成方法,其特征在于,包括以下步骤:
步骤1、利用雷达回波信号获取语音的基频信息,具体为:非接触式语音雷达向发音者发送连续正弦波,接收天线接收回波信号,之后对接收到的回波信号进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
步骤2、录取发音者发某个字符的音时的嘴唇视频信息,提取嘴唇轮廓从而获得嘴唇的时变运动特征,由麦克风同步录取发音者发某个字符的音时的语音信号,提取N组时变共振峰,并利用多元线性回归法进行公式拟合,获得嘴唇的时变运动特征和时变共振峰映射关系的经验公式;
步骤3、将待合成语音的发音者嘴唇视频信息为输入,利用步骤2中的得到嘴唇的时变运动特征和时变共振峰映射关系的经验公式进行计算,得到发音者语音的N组时变共振峰,其中N为不小于三的整数;
步骤4、由雷达回波获取的语音信号的基频和步骤3获得的N组时变共振峰进行语音合成,得到最终合成的语音信号。
2.根据权利要求1所述的基于语音雷达与视频的语音合成方法,其特征在于,步骤1中所述的雷达回波信号为雷达回波所采集的发音者的声带振动信号;发音者的发音为某个字符的音。
3.根据权利要求1所述基于语音雷达与视频的语音合成方法,其特征在于,步骤2中时变运动特征为发音者发某个字符的音时归一化嘴唇的宽和归一化嘴唇的高。
4.根据权利要求1所述的基于语音雷达与视频的语音合成方法,其特征在于,步骤2将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合,具体步骤为:
步骤2-1、录取发音者发某个字符的音时的嘴唇视频信息,提取嘴唇轮廓从而获得嘴唇的时变运动特征;
步骤2-2、由麦克风同步录取发音者发某个字符的音时的语音信号,提取N组时变共振峰;
步骤2-3、利用多元线性回归法进行公式拟合,具体为,设输入为:归一化嘴唇的宽X1,归一化嘴唇的高X2,X1一阶导数X3,X2一阶导数X4,输出为时变共振峰F,β=(β1,β2,β3,β4,β5)为拟合公式的回归系数,则第n组时变共振峰Fn拟合公式为:
Fn=βn1+βn2×X1+βn3×X2+βn4×X3+βn5×X4 (1)
其中βn=(βn1,βn2,βn3,βn4,βn5)为第n组时变共振峰对应第n组回归系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711100477.7/1.html,转载请声明来源钻瓜专利网。