[发明专利]一种语音处理方法、装置和用于处理语音的装置有效

申请号：	201911061318.X	申请日：	2019-11-01
公开（公告）号：	CN112837668B	公开（公告）日：	2023-04-28
发明（设计）人：	黎明超;李茜;郑亚鑫	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	郑傲日
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音处理方法装置用于
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音处理方法，其特征在于，所述方法包括：

在检测到用户触发语音变声功能后，获取所述用户在语音变声界面中选中的模板语音；

接收所述用户输入的语音；

将所述用户输入的语音与所述模板语音进行拼接，生成目标语音；

输出所述目标语音；

其中，所述将所述用户输入的语音与所述模板语音进行拼接，包括：

将所述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容；

从所述用户输入的语音的切分位置中，选取目标切分位置，将所述模板语音拼接至所述目标切分位置。

2.根据权利要求1所述的方法，其特征在于，所述接收所述用户输入的语音，包括：

接收用户通过语音输入方式输入的语音；或者

接收用户通过文字输入方式输入的文字，并将所述文字转换为语音。

3.根据权利要求1所述的方法，其特征在于，在所述生成目标语音之后，所述方法还包括：

获取与所述模板语音相匹配的背景音乐；

为所述目标语音添加所述背景音乐。

4.根据权利要求1所述的方法，其特征在于，所述语音变声界面包括至少一个模板语音的介绍信息，所述介绍信息中包括模板语音的内容和模板语音的位置信息，所述位置信息用于指示用户输入的语音与模板语音的位置关系；以及，模板语音包括以下至少一项：段子语音、明星语音、主播语音、热点语音。

5.根据权利要求1所述的方法，其特征在于，所述将所述用户输入的语音与所述模板语音进行拼接，包括：

将所述模板语音拼接至所述用户输入的语音的首端；或者

将所述模板语音拼接至所述用户输入的语音的尾端；或者

将所述模板语音插入至所述用户输入的语音中的目标位置。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取各语音片段的起始时间；

基于各语音片段的起始时间，确定各语音片段的时长；

基于各语音片段的时长和所述模板语音的时长，确定所述模板语音的起始时间，并更新各语音片段的起始时间。

7.根据权利要求1所述的方法，其特征在于，所述输出所述目标语音，包括：

确定与所述模板语音对应的目标音色；

将所述目标语音进行音色转换，以所述目标音色输出所述目标语音；

其中，所述将所述目标语音进行音色转换，包括：

对所述目标语音的各帧进行声学特征提取，得到各帧对应的原始声学特征，所述原始声学特征包括原始语音内容和原始音色特征；

获取所述目标音色的目标音色特征；

基于各帧的原始语音内容和所述目标音色特征，生成各帧对应的目标语音特征；

对各帧对应的目标声学特征进行语音合成。

8.一种语音处理装置，其特征在于，所述装置包括：

第一获取单元，被配置成在检测到用户触发语音变声功能后，获取所述用户在语音变声界面中选中的模板语音；

接收单元，被配置成接收所述用户输入的语音；

拼接单元，被配置成将所述用户输入的语音与所述模板语音进行拼接，生成目标语音；

输出单元，被配置成输出所述目标语音；

其中，所述拼接单元，进一步被配置成：将所述用户输入的语音切分为多个语音片段，每一个语音片段对应的语音内容为以下任意一项：词语、句子、具有完整语义的内容；从所述用户输入的语音的切分位置中，选取目标切分位置，将所述模板语音拼接至所述目标切分位置。

9.根据权利要求8所述的装置，其特征在于，所述接收单元，进一步被配置成：

接收用户通过语音输入方式输入的语音；或者

接收用户通过文字输入方式输入的文字，并将所述文字转换为语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司，未经北京搜狗科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911061318.X/1.html，转载请声明来源钻瓜专利网。

上一篇：用于车辆的电池系统和车辆
下一篇：地块融合方法、地块融合装置以及机器可读存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音处理方法、装置和用于处理语音的装置有效

专利文献下载