[发明专利]一种歌唱合成方法及装置、电子设备有效
申请号: | 201710640027.0 | 申请日: | 2017-07-31 |
公开(公告)号: | CN109326280B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 江源;胡国平;胡郁 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民 |
地址: | 230000 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 歌唱 合成 方法 装置 电子设备 | ||
本发明公开了一种歌唱合成方法及装置、电子设备,该方法包括如下步骤:步骤一,接收待合成文本数据;步骤二,利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲,本发明可增强合成歌曲的起伏感,进一步提升合成歌曲的自然度,提升用户体验。
技术领域
本发明涉及语音信号处理及机器学习领域,尤其涉及一种高自然度的歌唱合成方法及装置、电子设备。
背景技术
歌唱合成即将文本合成为歌曲,具体应用时,可以由用户提供任意文本,合成由目标发音人演唱的歌曲,如用户提供一段新闻文本,合成由周杰伦演唱的歌曲,具有较高的娱乐性。
随着移动互联网的普及,越来越多的人们喜欢把自己喜欢的文字合成相应曲调的歌曲用于娱乐。现有的歌唱合成方法一般基于传统的隐马尔可夫模型分对每种歌唱合成特征(如频谱特征、基频特征)进行建模,具体建模时,将音库中歌曲切分成单帧语音数据,利用隐马尔可夫模型进行状态级建模,建模尺度较低,对于歌曲这种时序较强的语音数据采用所述建模方法无法描述歌曲的长时韵律变化,建模效果较差,使得合成的歌曲自然度较低;而且现有方法在进行建模时,采用基于决策树聚类的方法对数据进行划分,聚到同一类的歌曲数据共享模型,容易导致合成的歌曲较平缓,起伏感降低,严重影响合成歌曲的主观听感。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种歌唱合成方法及装置、电子设备,以增强合成歌曲的起伏感,进一步提升合成歌曲的自然度,提升用户体验。
为达上述目的,本发明提供的技术方案如下:
一种歌唱合成方法,包括如下步骤:
步骤一,接收待合成文本数据;
步骤二,利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲。
进一步地,步骤一之前,还包括如下步骤:
收集海量歌曲数据;
分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。
进一步地,所述歌唱合成特征包括根据歌曲数据提取的频谱特征和基频特征,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述,所述普通长时模型包含歌曲的频谱信息及基频信息,所述残差长时模型除了包含歌曲的频谱信息及基频信息外,还包含每首歌曲的频谱残差长时信息和基频残差长时信息。
进一步地,所述每种歌唱合成特征的长时模型采用深度双向长短时记忆模型描述。
进一步地,步骤二包括:
根据所述待合成文本数据指定的乐谱信息得到歌唱合成的时长特征;
利用建模后的频谱长时模型和基频长时模型生成相应频谱特征、基频特征;
将所述时长特征、频谱特征、基频特征进行合成,合成相应的歌曲。
进一步地,所述分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型的步骤包括:
对收集歌曲进行文本标注,得到文本标注特征;
提取每首歌曲歌唱合成特征的残差信息,所述残差信息包括频谱残差长时信息与基频残差长时信息;
根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模。
进一步地,所述对收集歌曲进行文本标注,得到文本标注特征的步骤为根据每首歌曲的歌词及歌曲的乐谱信息对收集的每首歌曲进行标注,得到歌曲对应的标注文本,将每首歌曲的标注文本作为文本标注特征。
进一步地,提取频谱残差长时信息包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710640027.0/2.html,转载请声明来源钻瓜专利网。