[发明专利]自定义语音播报客户端、服务器、系统及方法在审

申请号：	201910512750.X	申请日：	2019-06-13
公开（公告）号：	CN110415678A	公开（公告）日：	2019-11-05
发明（设计）人：	康佳美	申请（专利权）人：	百度时代网络技术（北京）有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/04;G10L13/08;G10L17/02
代理公司：	北京润平知识产权代理有限公司 11283	代理人：	肖冰滨;王晓晓
地址：	100080 北京市海淀区东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供自定义语音播报客户端，该客户端包括：采集模块，用于获取原始音频；提取模块，提取所述原始音频中的声纹特性；样本生成模块，根据提取到的所述声纹特性，制定相应的样本声效；语音播放模块，用于根据所述样本声效播放需要播放的信息。该自定义语音播报客户端可以根据获取到的声纹特性预先制作相应的样本声效，用户通过收听制作的样本声效决定是否进一步制作该声效的声效模型，以此可以避免用户获知声效效果的繁琐性，进而可以节省用户等待时间、减小服务器的工作强度。
搜索关键词：	声效客户端样本语音播报自定义声纹原始音频服务器样本生成模块语音播放模块采集模块提取模块用户等待预先制作播放繁琐性获知减小制作收听制定
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自定义语音播报客户端，其特征在于，该客户端包括：采集模块，用于获取原始音频；提取模块，提取所述原始音频中的声纹特性；样本生成模块，根据提取到的所述声纹特性，制定相应的样本声效；以及语音播放模块，用于根据所述样本声效播放所需语音播报的文本信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度时代网络技术（北京）有限公司，未经百度时代网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910512750.X/，转载请声明来源钻瓜专利网。

上一篇：音频生成方法和装置及存储介质
下一篇：一种同声传译方法、同声传译装置以及一种电子设备

同类专利

自定义语音播报客户端、服务器、系统及方法-201910512750.X
发明人：康佳美 -专利权人：百度时代网络技术（北京）有限公司
申请日： 2019-06-13 - 公布日： 2019-11-05 - 主分类号： G10L13/047
摘要：本发明实施例提供自定义语音播报客户端，该客户端包括：采集模块，用于获取原始音频；提取模块，提取所述原始音频中的声纹特性；样本生成模块，根据提取到的所述声纹特性，制定相应的样本声效；语音播放模块，用于根据所述样本声效播放需要播放的信息。该自定义语音播报客户端可以根据获取到的声纹特性预先制作相应的样本声效，用户通过收听制作的样本声效决定是否进一步制作该声效的声效模型，以此可以避免用户获知声效效果的繁琐性，进而可以节省用户等待时间、减小服务器的工作强度。

波形拼接中的拼接点平滑方法、装置及存储介质-201910370819.X
发明人：彭话易;程宁;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-06 - 公布日： 2019-08-30 - 主分类号： G10L13/047
摘要：本发明涉及语音信号处理领域，提出一种波形拼接中的拼接点平滑方法，应用于电子装置，方法包括：确定待拼接的两个语音单元的拼接点，分别截取两个拼接点处的预设长度的语音信号段；通过窗函数对两个语音信号段分别进行加窗处理，获取分别对应的短时分析信号；基于短时傅里叶变换分别获取两个短时分析信号的振幅、相位和频率；对两个短时分析信号的振幅、相位和频率进行基于距离权重的多项式插值，获取新的振幅、相位和频率；对新的振幅、相位和频率进行正弦波合成，获取新的语音信号段。本发明通过正弦模型对语音单元数据进行分析，将拼接处的语音信号表示为一系列的正弦波之和，能够保证合成语音的平滑过渡，有助于提高合成语音的自然度。

语音合成方法和语音合成装置-201610329738.1
发明人：李昊;康永国 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2016-05-18 - 公布日： 2019-05-03 - 主分类号： G10L13/047
摘要：本发明公开了一种语音合成方法以及装置。其中方法包括：确定待合成语句文本信息所属的语种类型，其中，语种类型包括第一语种类型和第二语种类型；确定第一语种类型对应的第一基础模型，并确定第二语种类型对应的第二基础模型；确定目标音色，并根据目标音色分别对第一基础模型、第二基础模型进行自适应变换，并根据自适应变换后的第一基础模型、第二基础模型对待合成语句文本信息进行训练，以生成对应的谱参数和基频参数；根据目标音色对第一语种类型和第二语种类型的基频参数进行调整；依据第一语种类型的谱参数、第二语种类型的谱参数、调整后的第一语种类型的基频参数、第二语种类型的基频参数合成目标语音。

语音合成方法及装置-201610901099.1
发明人：袁豪磊;吴富章;钱柄桦 -专利权人：腾讯科技（深圳）有限公司
申请日： 2016-10-17 - 公布日： 2019-03-15 - 主分类号： G10L13/047
摘要：本发明公开了一种语音合成方法及装置，属于语音合成技术领域。所述方法包括：获取测试语音信息；从测试语音信息中提取具有第一标注类型的测试语音片段；根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型；通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。本发明通过根据平均差异矩阵生成具有目标拼接权值的拼接代价模型，避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况，从而达到了减少手工调整次数，直接通过平均差异矩阵计算出较为精准的目标拼接权值的效果。

一种基于文本解析和语音合成的网络人机交互方法-201711474011.3
发明人：秦谦 -专利权人：江苏名通信息科技有限公司
申请日： 2017-12-29 - 公布日： 2018-06-29 - 主分类号： G10L13/047
摘要：本发明公开一种基于文本解析和语音合成的网络人机交互方法，其特征在于，包括如下步骤：步骤SS1：获取用户信息，建立用户特征信息集；步骤SS2：接收用户发出的语音请求进行特征信息匹配；步骤SS3：输出与所述用户的请求分类关系最接近的关联内容。本发明提出一种基于文本解析和语音合成的网络人机交互方法，通过获取用户信息，建立用户特征信息集；接收用户发出的语音请求进行特征信息匹配；输出与所述用户的请求分类关系最接近的关联内容，通过不断完善的用户特征信息集支持用户不断更新的提问请求，实现网络人机交互的深度关联。

语音合成系统和方法-201610236400.1
发明人：曹立新 -专利权人：北京地平线机器人技术研发有限公司
申请日： 2016-04-15 - 公布日： 2016-09-07 - 主分类号： G10L13/047
摘要：本发明提供一种语音合成系统和方法，所述方法包括：采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息；其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息；通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息；根据所述声学参数信息生成语音合成结果信息。本发明提供的语音合成系统和方法通过分别采集文本信息，以及语音信息和图像信息中的至少一类信息，以提取各项合成特征信息，并通过预测模型进行预测，最终生成语音，通过语音信息和/或图像信息所提取的特征信息预测用户的情感或语境，实现了合成表达用户情感或语境的个性化语音。

语音合成装置及其控制方法-201510791532.6
发明人：权哉成 -专利权人：三星电子株式会社
申请日： 2015-11-17 - 公布日： 2016-05-25 - 主分类号： G10L13/047
摘要：提供了语音合成装置和方法。所述语音合成装置包括：语音参数数据库，被配置为存储与构成语音文件的语音合成单元分别对应的多个参数；输入单元，被配置为接收包括多个语音合成单元在内的文本；以及处理器，被配置为从语音参数数据库中选择多个候选单元参数，所述多个候选单元参数与构成输入文本的多个语音合成单元分别对应；根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列；以及使用所述参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作，以生成与所述文本相对应的声学信号。

语音合成方法和装置-201510690575.5
发明人：李秀林;唐海员;李维高;白洁 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-10-22 - 公布日： 2016-02-24 - 主分类号： G10L13/047
摘要：本发明提出一种语音合成方法和装置，该语音合成方法包括：向服务器发送数据文件查询请求；接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；将所述声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；下载并保存所述用户选择的音色对应的声学模型；通过保存的声学模型进行语音合成。本发明可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

语音自动合成装置及方法-201210133630.7
发明人：孙艳庆;庞敏辉;苏腾荣;朱璇 -专利权人：北京三星通信技术研究有限公司;三星电子株式会社
申请日： 2012-04-28 - 公布日： 2013-10-30 - 主分类号： G10L13/047
摘要：本发明公开一种语音自动合成装置，包括：提取模块，用于从语音通话中自动提取出语音数据；增强检测模块，用于自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；综合标注模块，用于自动标注经归类后的语音数据，并且生成标注信息；验证筛选模块，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及语音合成模块，用于根据所述合成模型输出相应用户的语音。本发明提供的语音自动合成装置具备周期短、成本低且能够自动积累。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自定义语音播报客户端、服务器、系统及方法在审

专利文献下载