[发明专利]分布式语音合成系统有效

专利信息
申请号: 02108890.X 申请日: 2002-04-22
公开(公告)号: CN1384489A 公开(公告)日: 2002-12-11
发明(设计)人: 唐浩;尹波 申请(专利权)人: 安徽中科大讯飞信息科技有限公司
主分类号: G10L13/00 分类号: G10L13/00
代理公司: 合肥诚兴专利代理有限公司 代理人: 汤茂盛
地址: 230088 安徽省合*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种分布式语音合成系统,其特征在于系统包括语音合成前端处理环节和语音合成后端处理环节,所述的语音合成前端环节运行在服务器上,语音合成后端环节运行在客户机上,采用客户/服务器(C/S)计算模式,服务器和客户机之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。这个原则是尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。
搜索关键词: 分布式 语音 合成 系统
【主权项】:
1.一种分布式语音合成系统,其特征在于:系统包括语音合成前端处理环节和语音合成后端处理环节,所述的语音合成前端环节运行在服务器上,语音合成后端环节运行在客户机上,采用客户/服务器(C/S)计算模式,服务器和客户机之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽中科大讯飞信息科技有限公司,未经安徽中科大讯飞信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/02108890.X/,转载请声明来源钻瓜专利网。

同类专利
  • 用于多语言通信排序的系统和方法-201580085355.8
  • S·P·鲍尔;J·R·尤罗特 - 交互智能集团有限公司
  • 2015-10-15 - 2023-09-22 - G10L13/00
  • 本发明提供了一种用于多语言通信排序的系统和方法。通信流可以支持可能需要被创建、移除或编辑的一种或多种语言。在序列编辑期间,可以添加提示、数据、表达式、暂停和文本转语音。这可以通过使用包括提示或TTS的内联选择器完成,或者通过还可以提供错误反馈的对话的使用完成。主序列能够处理被彼此独立地支持和管理的多种语言。
  • 信息提供装置-202310642834.1
  • 米泽拓臣;光成贵宏;熊木优 - 株式会社本田阿克塞斯
  • 2019-05-31 - 2023-08-25 - G10L13/00
  • 本发明的信息提供装置(10)在行驶中的车辆(12)到达发声开始点(Xs)时,从扬声器(20)对所述车辆(12)的驾驶员开始语音引导,具有:驾驶员发声速度设定部(42A);发声类型判断部(44);和发声开始点计算部(50),其从与所判断的所述发声类型(TS)对应的所述语音发声速度(Saud)和所述语音引导的发声字数以及所述车辆(12)的车速(Vv)来计算该语音引导的所述发声开始点(Xs)或发声开始距离(Ds),Xs(Ds)=Xe(De)+(发声量/Saud)×Vv,以使所述语音引导的发声在规定的发声结束点(Xe)结束,其中,Xs为发声开始点,Ds为发声开始距离,Xe为发声结束点,发声量为发声字数,Saud为语音发声速度,Vv为车速。
  • 语音波形生成-201880085612.1
  • 崔洋;汪曦;何磊;宋謌平 - 微软技术许可有限责任公司
  • 2018-09-30 - 2023-07-04 - G10L13/00
  • 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征,其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。
  • 一种进行智能角色匹配的文字转语音工作方法-201910567561.2
  • 王海洲 - 上海麦克风文化传媒有限公司
  • 2019-06-27 - 2023-04-18 - G10L13/00
  • 本发明提出了一种进行智能角色匹配的文字转语音工作方法,包括:S1,通过角色音数据库调取相应角色音数据,并且配置相应角色音的角色参数;S2,通过文字数据库获取文字数据,对文字数据进行数据分割,将具有角色音转换的文字数据进行提取操作,将具有旁白角色参数的文字数据进行提取操作,根据提取的文字数据特征进行文字转换语音的操作;S3,在角色文字转语音特征库与第一角色参数和第五角色参数相匹配过程中;S4,将数据库文字数据形成角色文字转语音特征库和旁白文字转语音特征库后,对相应的文字转语音数据进行分段操作;S5,形成的分段语音特征集对应文字的按照时间戳进行顺序归类,在用户界面进行实时调用。
  • 程序、信息处理装置及信息处理方法-202180046226.3
  • 本间康之;前田直之;内田贵之 - 泰尔茂株式会社
  • 2021-09-02 - 2023-03-03 - G10L13/00
  • 程序使计算机执行以下处理:从对象人员受理语音的输入,将输入的上述语音转换成文本,从上述文本检测异常部位,在检测到上述异常部位的情况下,使将与上述异常部位相对应的文字列以与其他文字列不同的显示样态示出的上述文本显示于显示部。优选的是,从上述对象人员受理发向包含上述对象人员在内的多个使用者所参加的聊天群的消息的语音输入,并将上述消息转换成上述文本。
  • 一种语音合成类型的确定方法、装置、设备以及存储介质-202210413157.1
  • 郑榕;孟凡芹 - 北京远鉴信息技术有限公司
  • 2022-04-20 - 2022-07-08 - G10L13/00
  • 本公开提供了一种语音合成类型的确定方法、装置、设备以及存储介质,其中,该方法包括:获取待识别的目标语音,从目标语音中提取出各帧语音分别对应的目标幅度谱和目标相位谱,针对目标语音中任一帧语音的目标幅度谱和目标相位谱进行特征向量特征拼接,得到各帧语音的中间组合谱,将各帧语音对应的中间组合谱按照各帧语音的时间顺序进行拼接,得到目标语音的目标组合谱,将目标组合谱输入到用于进行语音合成类型识别的目标模型中,确定目标语音的合成类型。这样,可以提升确定语音合成类型的准确率。
  • 语音合成模型获取方法、装置、电子设备及存储介质-202011294266.3
  • 韩润强;孙涛;卿睿;魏建强 - 北京百度网讯科技有限公司
  • 2020-11-18 - 2022-05-03 - G10L13/00
  • 本申请公开了语音合成模型获取方法、装置、电子设备及存储介质,涉及语音合成、深度学习及自然语言处理等人工智能领域,其中的方法可包括:根据各自对应的训练语音数据,分别获取目标发音人以及至少一个非目标发音人的音色特征;针对至少一个非目标发音人,进行以下处理:以目标发音人为调整目标,根据非目标发音人与目标发音人的音色特征的差异,对非目标发音人的训练语音数据进行调整;根据目标发音人的训练语音数据以及调整后的非目标发音人的训练语音数据,训练语音合成模型。应用本申请所述方案,可提升模型训练效果以及语音合成效果等。
  • 音信号合成方法、生成模型的训练方法、音信号合成系统及程序-202080013714.X
  • 西村方成 - 雅马哈株式会社
  • 2020-02-18 - 2021-09-17 - G10L13/00
  • 通过计算机实现的音信号合成方法是生成控制数据,该控制数据包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据,通过向对包含表示与参照信号的音高相对应的音名的音名数据及表示所述音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习的生成模型输入所生成的所述控制数据,从而对表示所述音信号的输出数据进行推定。
  • 一种带隔断标识的复合文件生成及解析方法-201910299194.2
  • 陆成刚;叶超凡;陈刚;吴兵;李威 - 浙江工业大学
  • 2019-04-15 - 2021-08-03 - G10L13/00
  • 一种带隔断标识的复合文件生成方法,所述方法包括以下步骤:1)源文件获取;2)文件解析;3)复合文件合成。以及提供一种带隔断标识的复合文件解析方法。以及定义一种带隔断标识的复合文件格式,包括复合文件头(文件类型、子文件个数、复合文件大小)、子文件序号、子文件字节数、子文件内容4部分组成。本发明将一个需要合成的句子之间没有特定分隔规律的父文本,按照定义的格式解析保存为一个有规律间隔保存的复合文件,合成的若干音频按照定义的格式对应保存为一个有规律的复合文件,大大减少文件管理的难度。
  • 语音合成模型生成方法和装置-201710897311.6
  • 李昊 - 百度在线网络技术(北京)有限公司
  • 2017-09-28 - 2021-03-19 - G10L13/00
  • 本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取用于对语音合成模型对应的神经网络进行训练的文本的文本特征和文本对应的语音的声学特征,其中,声学特征中的用于训练的文本对应的语音的基频数据通过基频数据提取模型提取,基频数据提取模型基于利用包含的每一帧语音均对应有基频数据的语音预先对基频数据提取模型对应的神经网络进行训练而生成;利用文本特征和声学特征对语音合成模型对应的神经网络进行训练。实现了利用预先训练的基频数据提取模型提取用于训练的段语音的基频数据,使得用于训练语音的完整的基频数据可以用于对语音合成模型对应的神经网络的训练,进而提升训练效果。
  • 具有多级别文本信息的神经文本到语音合成-201880091963.3
  • 明怀平;何磊 - 微软技术许可有限责任公司
  • 2018-12-13 - 2021-02-09 - G10L13/00
  • 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。
  • 信息提供系统-201480083606.4
  • 马场直哉;古本友纪;武井匠;齐藤辰彦;大泽政信 - 三菱电机株式会社
  • 2014-11-25 - 2021-01-29 - G10L13/00
  • 信息提供系统1包括:提取部(12),其将包含在朗读文本中的词组等中的能从信息源获取与该词组等相关的附加信息的词组等作为声音识别对象语进行提取;合成控制部(13),其输出对朗读文本进行朗读的音频进行合成所用的语调信息以及提取部(12)所提取出的声音识别对象语;音频合成部(14),其使用从合成控制部(13)接收到的语调信息来对朗读文本进行朗读;以及显示指示部(15),其指示显示器(4)与音频合成部(14)朗读声音识别对象语的时刻相应地显示从合成控制部(13)接收到的声音识别对象语。
  • 一种语音处理方法及终端-201810425867.X
  • 陈立 - 维沃移动通信有限公司
  • 2018-05-07 - 2021-01-08 - G10L13/00
  • 本发明实施例提供一种语音处理方法及终端,涉及通信技术领域,以解决在虚拟场景中当用户使用原声语音输入信息时,其他用户辨别不同用户对应的虚拟角色的过程较为繁琐,从而造成使用体验较差的问题。该方法包括:在接收到用户的语音信息的情况下,获取目标虚拟角色的个性化语音信息,所述目标虚拟角色为用户选择的虚拟角色;将所述语音信息和所述个性化语音信息进行处理,得到目标语音信息;输出所述目标语音信息。本发明提供的方法可提高用户对终端的使用体验。
  • 由数字助理在组设备环境中对命令的标识和处理-201980017082.1
  • K·M·本-多尔;R·卡拉西克;A·迪亚曼特;A·米勒 - 微软技术许可有限责任公司
  • 2019-02-28 - 2020-10-23 - G10L13/00
  • 在本公开的非限制性示例中,提出了用于由数字助理在组设备环境中执行命令的系统、方法和设备。在事件的持续时间内,可以对具有数字助理的多个设备进行集群。群集的设备中的一个设备可以被指派为针对群集的仲裁器设备。用户可以发出由群集的数字助理可执行的口头命令。可以经由语音分析来标识发出口头命令的用户。可以关于口头命令是否对应于与群集的多个成员或群集的特定成员共享内容的意图做出确定,并且可以基于所确定的意图和执行设备的呈现能力来选择群集的设备以用于执行对口头命令的答复。
  • 话语主题的识别-201380067309.6
  • 弗雷德·特勒克;弗雷德里克·约翰·乔治·德拉马;维克拉姆·库马尔·贡德蒂 - 亚马逊技术有限公司
  • 2013-12-16 - 2020-10-02 - G10L13/00
  • 公开了用于产生音频呈现的元素或其他部分的标记的特征,以使得语音处理系统可确定用户话语提到音频呈现的哪个部分。例如,话语可包括没有明确的前述词的代词。标记可用于使话语与用于处理的相应内容部分相关联。标记可被提供到具有文本到语音(“TTS”)呈现的客户端设备。标记可接着连同由客户端设备采撷的用户话语一起被提供到语音处理系统。可包括自动语音识别(“ASR”)模块和/或自然语言理解(“NLU”)模块的语音处理系统可基于标记来产生提示。提示可被提供到ASR和/或NLU模块,以便帮助处理用户话语的含义或意图。
  • 电子设备、控制装置、控制方法及记录介质-202010085196.4
  • 栗本裕介;和田浩志 - 夏普株式会社
  • 2020-02-10 - 2020-09-08 - G10L13/00
  • 本发明是一种电子设备,其包括至少一个语音输出装置与至少一个控制装置,所述控制装置进行完成检测处理、完成通知处理、关联判定处理及语音输出处理,所述完成检测处理检测规定的动作是否已完成,所述完成通知处理向电子设备可执行的至少一个服务功能通知动作已完成,所述关联判定处理判定有无可提供与动作关联的服务的所述服务功能,所述语音输出处理在有可提供服务的服务功能的情况下,从语音输出装置输出与服务匹配的语音数据。
  • 语音输出装置及电气设备-202010081312.5
  • 藤井贵英 - 夏普株式会社
  • 2020-02-06 - 2020-08-18 - G10L13/00
  • 本发明提供一种语音输出装置,构成为从输出语音消息或旋律的语音输出装置输出操作音,并且在语音消息或旋律的输出中需要输出操作音的情况下,不会在中途使语音消息或旋律停止且能够以适当的时机输出操作音。语音输出装置具备:扬声器;以及语音控制部,其在将语音消息或旋律的语音信号向扬声器供给过程中需要输出操作音的情况下,不使语音消息或旋律的语音信号的供给中断,而将操作音与语音消息或旋律合成来供给。
  • 用于声对声转换的系统和方法-201880034452.8
  • 威廉·C·哈夫曼;迈克尔·帕帕斯 - 调节股份有限公司
  • 2018-05-24 - 2020-05-26 - G10L13/00
  • 一种构建话音转换系统的方法使用来自目标语音的目标信息以及源话音数据。该方法接收源话音数据和在音色空间内的目标音色数据。根据源话音数据和目标音色数据,生成器产生第一候选数据。参照多个不同语音的音色数据,鉴别器将第一候选数据与目标音色数据进行比较。鉴别器确定第一候选数据和目标音色数据之间的不一致性。鉴别器产生包含与不一致性有关的信息的不一致性消息。将不一致性消息反馈给生成器,并且生成器产生第二候选数据。使用由生成器和/或鉴别器产生的作为反馈结果的信息来改进音色空间中的目标音色数据。
  • 有声播放装置及其播放方法-201811324524.0
  • 邓广丰;蔡政宏;谷圳;朱志国;刘瀚文 - 财团法人资讯工业策进会
  • 2018-11-08 - 2020-05-05 - G10L13/00
  • 一种有声播放装置以及用于该有声播放装置的播放方法被公开于此。该有声播放装置接收来自一用户的一用户指令,以自多个声音模型中选择一目标声音模型,并将该目标声音模型指定于该文本中的一目标角色。该有声播放装置还将一文本转换为一语音,且在该转换的过程中,根据该目标声音模型将该文本中属于该目标角色的语句转换成一目标角色语音。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top