[发明专利]一种歌唱合成方法及装置、电子设备有效

申请号：	201710640027.0	申请日：	2017-07-31
公开（公告）号：	CN109326280B	公开（公告）日：	2022-10-04
发明（设计）人：	江源;胡国平;胡郁	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L13/10	分类号：	G10L13/10
代理公司：	北京维澳专利代理有限公司 11252	代理人：	王立民
地址：	230000 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种歌唱合成方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种歌唱合成方法及装置、电子设备，该方法包括如下步骤：步骤一，接收待合成文本数据；步骤二，利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成，得到合成后的歌曲，本发明可增强合成歌曲的起伏感，进一步提升合成歌曲的自然度，提升用户体验。

技术领域

本发明涉及语音信号处理及机器学习领域，尤其涉及一种高自然度的歌唱合成方法及装置、电子设备。

背景技术

歌唱合成即将文本合成为歌曲，具体应用时，可以由用户提供任意文本，合成由目标发音人演唱的歌曲，如用户提供一段新闻文本，合成由周杰伦演唱的歌曲，具有较高的娱乐性。

随着移动互联网的普及，越来越多的人们喜欢把自己喜欢的文字合成相应曲调的歌曲用于娱乐。现有的歌唱合成方法一般基于传统的隐马尔可夫模型分对每种歌唱合成特征(如频谱特征、基频特征)进行建模，具体建模时，将音库中歌曲切分成单帧语音数据，利用隐马尔可夫模型进行状态级建模，建模尺度较低，对于歌曲这种时序较强的语音数据采用所述建模方法无法描述歌曲的长时韵律变化，建模效果较差，使得合成的歌曲自然度较低；而且现有方法在进行建模时，采用基于决策树聚类的方法对数据进行划分，聚到同一类的歌曲数据共享模型，容易导致合成的歌曲较平缓，起伏感降低，严重影响合成歌曲的主观听感。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种歌唱合成方法及装置、电子设备，以增强合成歌曲的起伏感，进一步提升合成歌曲的自然度，提升用户体验。

为达上述目的，本发明提供的技术方案如下：

一种歌唱合成方法，包括如下步骤：

步骤一，接收待合成文本数据；

步骤二，利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成，得到合成后的歌曲。

进一步地，步骤一之前，还包括如下步骤：

收集海量歌曲数据；

分别对收集歌曲的歌唱合成特征进行多模型长时建模，得到每种歌唱合成特征的长时模型。

进一步地，所述歌唱合成特征包括根据歌曲数据提取的频谱特征和基频特征，每种歌唱合成特征分别采用普通长时模型和残差长时模型描述，所述普通长时模型包含歌曲的频谱信息及基频信息，所述残差长时模型除了包含歌曲的频谱信息及基频信息外，还包含每首歌曲的频谱残差长时信息和基频残差长时信息。

进一步地，所述每种歌唱合成特征的长时模型采用深度双向长短时记忆模型描述。

进一步地，步骤二包括：