[发明专利]个性化语音合成模型构建方法、装置、系统及电子设备在审
申请号: | 201911039684.5 | 申请日: | 2019-10-29 |
公开(公告)号: | CN112750423A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 霍媛圆;雷鸣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/08;G10L25/78;G06F40/205;G06F40/106 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性化 语音 合成 模型 构建 方法 装置 系统 电子设备 | ||
1.一种个性化语音合成模型构建方法,其特征在于,包括:
将录音文本分割为多个句子文本;
在采集用户录音数据时,以第一显示方式显示当前阅读句子文本,以第二显示方式显示当前阅读句子文本后的文本信息;
向服务端发送采集到的用户录音数据,以使得服务端根据所述用户录音数据,构建所述用户的个性化语音合成模型。
2.根据权利要求1所述的方法,其特征在于,
所述第一显示方式包括:高亮显示方式;
所述第二显示方式包括:非高亮显示方式。
3.根据权利要求1所述的方法,其特征在于,
所述第一显示方式与所述第二显示方式具有不同的颜色、字体和/或字号。
4.根据权利要求1所述的方法,其特征在于,
所述第二显示方式包括:录音进度条方式,以便于用户根据录音进度条调整录音速度。
5.根据权利要求1所述的方法,其特征在于,
所述当前阅读句子文本后的文本信息包括:用户正在录制句子的序号,和/或未阅读句子的数量。
6.根据权利要求1所述的方法,其特征在于,所述以第一显示方式显示当前阅读句子文本,包括:
根据所述当前阅读句子文本的文本长度,确定所述当前阅读句子文本的显示时长;
以第一显示方式,持续所述显示时长显示当前阅读句子文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述当前阅读句子文本的文本长度,并确定所述当前阅读句子文本的显示时长,包括:
根据所述当前阅读句子文本的文本长度和字阅读时长,确定所述当前阅读句子文本的第一显示时长;
将大于所述第一显示时长的时长作为所述当前阅读句子文本的第二显示时长。
8.根据权利要求1所述的方法,其特征在于,还包括:
至少根据不同区域用户发音方式不同的字,生成文本长度小于长度阈值的录音文本。
9.根据权利要求1所述的方法,其特征在于,还包括:
从所述用户录音数据中滤除与所述录音文本无关的语音数据。
10.一种个性化语音合成模型构建装置,其特征在于,包括:
文本分割单元,用于将录音文本分割为多个句子文本;
文本显示单元,用于在采集用户录音数据时,以第一显示方式显示当前阅读句子文本,以第二显示方式显示当前阅读句子文本后的文本信息;
录音数据发送单元,用于向服务端发送采集到的用户录音数据,以使得服务端根据所述用户录音数据,构建所述用户的个性化语音合成模型。
11.一种电子设备,其特征在于,包括:
处理器;
存储器;
所述存储器,用于存储实现个性化语音合成模型构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:将录音文本分割为多个句子文本;在采集用户录音数据时,以第一显示方式显示当前阅读句子文本,以第二显示方式显示当前阅读句子文本后的文本信息;向服务端发送采集到的用户录音数据,以使得服务端根据所述用户录音数据,构建所述用户的个性化语音合成模型。
12.一种个性化语音合成模型构建方法,其特征在于,包括:
接收客户端发送的用户录音数据;
获取与所述用户录音数据对应的录音文本;
根据所述用户录音数据和所述录音文本,构建所述用户的个性化语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911039684.5/1.html,转载请声明来源钻瓜专利网。