[发明专利]一种语音处理方法、装置和用于处理语音的装置有效
| 申请号: | 201911061318.X | 申请日: | 2019-11-01 |
| 公开(公告)号: | CN112837668B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 黎明超;李茜;郑亚鑫 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 郑傲日 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 处理 方法 装置 用于 | ||
1.一种语音处理方法,其特征在于,所述方法包括:
在检测到用户触发语音变声功能后,获取所述用户在语音变声界面中选中的模板语音;
接收所述用户输入的语音;
将所述用户输入的语音与所述模板语音进行拼接,生成目标语音;
输出所述目标语音;
其中,所述将所述用户输入的语音与所述模板语音进行拼接,包括:
将所述用户输入的语音切分为多个语音片段,每一个语音片段对应的语音内容为以下任意一项:词语、句子、具有完整语义的内容;
从所述用户输入的语音的切分位置中,选取目标切分位置,将所述模板语音拼接至所述目标切分位置。
2.根据权利要求1所述的方法,其特征在于,所述接收所述用户输入的语音,包括:
接收用户通过语音输入方式输入的语音;或者
接收用户通过文字输入方式输入的文字,并将所述文字转换为语音。
3.根据权利要求1所述的方法,其特征在于,在所述生成目标语音之后,所述方法还包括:
获取与所述模板语音相匹配的背景音乐;
为所述目标语音添加所述背景音乐。
4.根据权利要求1所述的方法,其特征在于,所述语音变声界面包括至少一个模板语音的介绍信息,所述介绍信息中包括模板语音的内容和模板语音的位置信息,所述位置信息用于指示用户输入的语音与模板语音的位置关系;以及,模板语音包括以下至少一项:段子语音、明星语音、主播语音、热点语音。
5.根据权利要求1所述的方法,其特征在于,所述将所述用户输入的语音与所述模板语音进行拼接,包括:
将所述模板语音拼接至所述用户输入的语音的首端;或者
将所述模板语音拼接至所述用户输入的语音的尾端;或者
将所述模板语音插入至所述用户输入的语音中的目标位置。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取各语音片段的起始时间;
基于各语音片段的起始时间,确定各语音片段的时长;
基于各语音片段的时长和所述模板语音的时长,确定所述模板语音的起始时间,并更新各语音片段的起始时间。
7.根据权利要求1所述的方法,其特征在于,所述输出所述目标语音,包括:
确定与所述模板语音对应的目标音色;
将所述目标语音进行音色转换,以所述目标音色输出所述目标语音;
其中,所述将所述目标语音进行音色转换,包括:
对所述目标语音的各帧进行声学特征提取,得到各帧对应的原始声学特征,所述原始声学特征包括原始语音内容和原始音色特征;
获取所述目标音色的目标音色特征;
基于各帧的原始语音内容和所述目标音色特征,生成各帧对应的目标语音特征;
对各帧对应的目标声学特征进行语音合成。
8.一种语音处理装置,其特征在于,所述装置包括:
第一获取单元,被配置成在检测到用户触发语音变声功能后,获取所述用户在语音变声界面中选中的模板语音;
接收单元,被配置成接收所述用户输入的语音;
拼接单元,被配置成将所述用户输入的语音与所述模板语音进行拼接,生成目标语音;
输出单元,被配置成输出所述目标语音;
其中,所述拼接单元,进一步被配置成:将所述用户输入的语音切分为多个语音片段,每一个语音片段对应的语音内容为以下任意一项:词语、句子、具有完整语义的内容;从所述用户输入的语音的切分位置中,选取目标切分位置,将所述模板语音拼接至所述目标切分位置。
9.根据权利要求8所述的装置,其特征在于,所述接收单元,进一步被配置成:
接收用户通过语音输入方式输入的语音;或者
接收用户通过文字输入方式输入的文字,并将所述文字转换为语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911061318.X/1.html,转载请声明来源钻瓜专利网。





