[发明专利]语音合成装置及方法有效

申请号：	201510607820.1	申请日：	2015-09-22
公开（公告）号：	CN105304080B	公开（公告）日：	2019-09-03
发明（设计）人：	孙见青;王影;江源;胡国平;胡郁;刘庆峰	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L13/02	分类号：	G10L13/02
代理公司：	北京维澳专利代理有限公司 11252	代理人：	刘路尧;逢京喜
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种语音合成装置及方法，该装置包括：模型构建模块，用于预先根据收集的大量发音人语音数据构建语音合成模型；接收模块，用于接收用户的待合成文本；风格确定模块，用于确定合成语音风格；模型修正模块，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；合成模块，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。利用本发明，可以使合成语音的风格更丰富自然，有效提高用户体验，增加娱乐性。
搜索关键词：	语音合成装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语音合成装置，其特征在于，包括：模型构建模块，用于预先根据收集的大量发音人语音数据构建语音合成模型；接收模块，用于接收用户的待合成文本；风格确定模块，用于根据用户提供的风格语音数据确定合成语音风格，和/或根据待合成文本确定合成语音风格，和/或根据用户关注的信息确定合成语音风格；模型修正模块，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；合成模块，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司，未经科大讯飞股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510607820.1/，转载请声明来源钻瓜专利网。

同类专利

语音处理方法、装置、终端设备及存储介质-201910746794.9
发明人：陈昊亮;罗伟航 -专利权人：广州国音智能科技有限公司
申请日： 2019-08-13 - 公布日： 2019-11-12 - 主分类号： G10L13/02
摘要：本发明公开了一种语音处理方法、装置、终端设备及计算机可读存储介质，通过获取环境中的语音信息，根据所述语音信息在预设语音数据库中确定语音数据；提取预设接口接收到的文本信息，基于所述文本信息从所述语音数据中查找目标语音数据；按照语音合成指令，将所述目标语音数据合成为语音序列。本发明实现了，不受场景、语境等因素的限制进行语音识别以及语音合成处理，提高了对语音进行的处理的效率，并基于用户定制化和个性化需求进行语音合成和输出，提升了语音处理的性能。

一种基于语音技术的智能语音机器人-201910755243.9
发明人：亚琼 -专利权人：广州科粤信息科技有限公司
申请日： 2019-08-15 - 公布日： 2019-11-12 - 主分类号： G10L13/02
摘要：本发明公开了一种基于语音技术的智能语音机器人，涉及机器人交互技术领域领域，针对现有的语音合成效率低的问题，现提出如下方案，其包括处理模块，所述处理模块的引脚通过导线连接有LPC滤波器，所述LPC滤波器通过导线连接有LPC预测编码模块，所述LPC预测编码模块通过导线连接有语音接收模块，所述处理模块的引脚通过导线连接有LPC合成器，所述LPC合成器通过导线连接有语音输出模块，所述处理模块的引脚通过导线连接有射频器和语音库，本发明结构简单，实用方便，通过各个模块之间的相互配合，可以实现有效的语音合成，降低时间域信号的传输速率，合成出符合要求的语音，提高语音信息的有效性，同时提高语音合成效率。

一种支持语音实时分解/合成的伽马通滤波器组芯片系统-201610921435.9
发明人：李冬梅;杨有为;贾瑞;刘润生 -专利权人：清华大学
申请日： 2016-10-21 - 公布日： 2019-11-08 - 主分类号： G10L13/02
摘要：本发明提出一种支持语音实时分解/合成的伽马通滤波器组芯片系统，属于数字电路设计领域。该系统由输入模块、参数模块、控制模块、计算模块和输出模块五部分组成；输入模块接收一帧语音数据后激活控制模块，同时根据不同子带上人耳基底膜的延时调整各通道延时后将语音数据提供给计算模块；控制模块控制参数模块读取对应通道的参数，并传输给计算模块；计算模块完成本通道的伽马通滤波算法，将结果存入输出模块；计算模块完成该帧音数据所有通道计算后，输出模块将存储数据供外部进行读取。本发明系统减少了计算各通道的消耗时钟数，节省功耗；实现了参数可配置功能，可根据需要灵活调整系统参数，实现语音的分解和合成操作。

语音交互过程中的多音字播报方法及系统-201611199610.4
发明人：王鸣 -专利权人：云知声（上海）智能科技有限公司
申请日： 2016-12-22 - 公布日： 2019-11-08 - 主分类号： G10L13/02
摘要：本发明提供了一种语音交互过程中的多音字播报方法及系统，所述播报方法包括：获取语音信息，识别所述语音信息；形成反馈信息；对所述反馈信息进行注音；播报所述反馈信息；释放先验信息。本发明通过将获取的语音信息通过识别存储为文本信息和音素信息，利用所述音素信息对反馈信息进行注音再进行播报，能有效提高专有名词中的多音字播报准确率，改善多音字播报效果。

一种驾驶中语音通讯的方法、计算机装置及计算机可读存储介质-201910669737.5
发明人：韩子天;李立标 -专利权人：中山安信通机器人制造有限公司
申请日： 2019-07-24 - 公布日： 2019-10-25 - 主分类号： G10L13/02
摘要：本发明提供一种驾驶中语音通讯的方法、计算机装置及计算机可读存储介质，包括获取驾驶人员的语音信息，对语音信息进行语音识别，并转换为文本信息；对文本信息进行自然语言处理，并生成第一自然文本信息；发送启动即时通信应用程序的指令，并发送由即时通信应用程序向通讯人员发送第一自然文本信息的指令。获取由即时通信应用程序所接收到的外源信息，对外源信息进行自然语言处理并生成第二自然文本信息，对第二自然文本信息进行语音合成，将合成的语音输出。本发明还提供实现上述方法的计算机装置及计算机可读存储介质。本发明可实现整个驾驶中语音通讯过程的无手机操作，有效地保障了驾驶过程的安全。

一种基于深度神经网络音素信息的语音转换方法-201610830140.0
发明人：李明;郑桦迪;蔡炜城 -专利权人：广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
申请日： 2016-09-18 - 公布日： 2019-10-25 - 主分类号： G10L13/02
摘要：本发明公开一种基于深度神经网络音素信息的语音转换方法，包括：训练阶段：步骤101：获得一个目标说话人预料，分别提取PPP特征和频谱低维特征；步骤102：去除频谱低维特征0阶系数，直接拼接PPP特征和频谱低维特征；步骤103：将联合特征训练成一个JD‑GMM模型；步骤104：计算源说话人F0和目标说话人F0的均值和方差；转换阶段：步骤105：对源说话人新的语音提取同样配置的PPP特征；步骤106：输入到JD‑GMM模型，得到估算出来的目标低维特征；步骤107：计算目标说话人的F0，做一个向目标说话人靠近的线性变换；步骤108：利用估算的频谱，线性变换后的F0，该语音的原0阶系数，一起还原成语音。

歌声合成模型的训练方法、装置、计算机设备以及存储介质-201910500699.0
发明人：王健宗;曾振;罗剑 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-11 - 公布日： 2019-10-22 - 主分类号： G10L13/02
摘要：本申请公开了一种人工智能的歌声合成模型的训练方法、装置、计算机设备以及存储介质，歌声合成模型的训练方法包括：对乐谱数据和歌声数据进行预处理，以提取乐谱数据中的乐谱特征和歌声数据中的第一声学特征参数；将乐谱特征输入歌声合成模型中以生成合成歌声；判断合成歌声在歌声评判模型中的评分值是否低于第一声学特征参数在歌声评判模型中的评分值；若判断为是，则根据合成歌声的评分值对歌声合成模型进行第一模型参数优化，直至优化后的歌声合成模型生成合成歌声的评分值大于等于第一声学特征参数在优化后的歌声评判模型中的评分值为止。通过上述方式，本申请能够提升歌声合成模型的合成效果。

神经网络生成建模以变换语音发音和增强训练数据-201910237141.8
发明人：普拉韦恩·纳拉亚南;丽莎·斯卡里亚;弗朗索瓦·沙雷特;阿什利·伊丽莎白·米克斯;瑞恩·伯克 -专利权人：福特全球技术公司
申请日： 2019-03-27 - 公布日： 2019-10-15 - 主分类号： G10L13/02
摘要：本公开提供了“神经网络生成建模以变换语音发音和增强训练数据”。公开了用于使用深度生成模型进行语音变换和生成合成语音的系统、方法和装置。本公开的方法包括从多个说话人接收包括语音发音的多个迭代的输入音频数据。所述方法包括基于所述输入音频数据而生成输入谱图并将所述输入谱图传输到被配置为生成输出谱图的神经网络。所述方法包括从所述神经网络接收所述输出谱图并基于所述输出谱图而生成包括所述语音发音的合成音频数据。

一种音频合成处理方法及系统-201610334168.5
发明人：魏天云;张伟;吴秋平 -专利权人：广州颐希颉信息科技有限公司
申请日： 2016-05-19 - 公布日： 2019-10-11 - 主分类号： G10L13/02
摘要：本发明提供了一种音频合成处理方法及系统。所述方法包括：采集当前帧的多个参与方的语音数据；计算每一参与方的当前帧的语音数据与上一帧的语音数据的差值，生成所述每一参与方的当前帧的语音差值数据；根据参与方的数量，为所述每一参与方的当前帧的语音差值数据设置衰减等级和符号位；将每一参与方的当前帧的设置衰减等级和符号位后的语音差值数据进行累加后，与上一帧的混音数据相加，生成当前帧的混音数据。本发明可以有效消除背景噪音的同时，也有效的消除了在语音数据中的直流偏置。并且，本发明涉及的算法简单，控制简单且占用资源少，可以简单实现多达64个参与方的混音，方便在一些低成本的混音设计中实现。

一种基于寄宿应用的语音播放方法及设备-201910344729.3
发明人：方玮俊 -专利权人：上海连尚网络科技有限公司
申请日： 2019-04-26 - 公布日： 2019-10-01 - 主分类号： G10L13/02
摘要：本申请的目的是提供一种基于寄宿应用的语音播放方法及设备，本申请通过基于用户对浏览器中当前文本的预设操作调用控制面板，所述控制面板中包含至少一个寄宿应用的入口，其中，所述寄宿应用用于对文本进行语音播放；获取所述用户从所述至少一个寄宿应用中确定的目标寄宿应用，将所述当前文本发送至所述目标寄宿应用；接收所述目标寄宿应用返回的语音信息，所述语音信息由所述目标寄宿应用对应的网络设备根据所述目标寄宿应用关联的语音播放方式及所述当前文本进行合成确定；通过所述浏览器的播放接口播放所述语音信息。从而实现通过寄宿应用的展现方式选择朗读的模式，通过网络设备对语音进行合成，以达到语音朗读的最佳组合效果。

面向智能机器人系统的多语言文本混合朗读方法及系统-201610537801.0
发明人：王合心 -专利权人：北京光年无限科技有限公司
申请日： 2016-07-08 - 公布日： 2019-09-27 - 主分类号： G10L13/02
摘要：本发明公开了一种面向智能机器人系统的多语言文本混合朗读方法及系统，该方法包括智能机器人端将获取的待混合朗读输出的多语言文本发送至云服务器；云服务器根据所述多语言文本的语言类型标注不同的语音合成引擎的类型，并将标注的结果反馈回至智能机器人端；智能机器人端根据反馈的信息调用相应的语音合成引擎对所述多语言文本进行朗读输出。该方法解决了现有技术中混合朗读灵活性低，成本高以及准确性低的问题，改善了用户体验。

语音合成模型的训练方法、语音合成方法、装置、设备及存储介质-201910420168.0
发明人：王健宗;贾雪丽 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-20 - 公布日： 2019-09-20 - 主分类号： G10L13/02
摘要：本申请涉及语音语义领域，具体使用了注意力机制和神经网络实现语音合成，并公开了一种语音合成模型的训练方法、语音合成方法、装置、设备及存储介质，所述训练方法包括：获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；根据所述训练文本数据，生成训练文本向量；基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

合成语音的传输方法、云端服务器和终端设备-201610999015.2
发明人：匡涛;任晓楠;王峰;张大钊 -专利权人：海信集团有限公司
申请日： 2016-11-14 - 公布日： 2019-09-20 - 主分类号： G10L13/02
摘要：本公开涉及了一种合成语音的传输方法、云端服务器和终端设备。所述合成语音的传输方法，包括：接收待合成的文本信息；对所述文本信息进行分词处理，得到至少一个语义单元；判断所述文本信息对应的合成语音的数据长度是否大于预设数据传输长度；若为是，则根据所述预设数据传输长度和语义单元，将所述文本信息对应的合成语音划分为至少两个待传输语音片段，所述待传输语音片段是若干个语义单元对应的合成语音；发送所述待传输语音片段。由于待传输语音片段是由若干个语义单元对应的合成语音组成的，因此，无论网络环境是否异常，该待传输的语音段都将保持文本信息原有的语义结构，从而保证了经传输的合成语音的可理解性。

一种基于语音交互的家居控制方法及其系统-201910696902.6
发明人：李家杨;李家俊 -专利权人：安徽立果智能科技有限公司
申请日： 2019-07-30 - 公布日： 2019-09-17 - 主分类号： G10L13/02
摘要：本发明公开了一种基于语音交互的家居控制方法及其系统，该系统包括语音交互主机，所述语音交互主机包括语音识别模块，语音合成模块、语音播放模块、智能家居管理模块、声纹管理模块、通讯模块，均与处理芯片连接，所述语音识别模块用于对包含控制指令关键词的语音信息进行识别和处理，提取出语音信息中的控制指令关键词，并以此关键词为基础生成关联的控制指令，由处理芯片将控制指令发送至智能家居管理模块。本发明通过声纹管理模块，可以对已经通过验证并具有特定声纹参数的声音进行处理分析，满足不同的家庭成员的使用要求，能够通过远程语音交互对智能家居设备进行控制，提高智能家居的控制效率，满足使用者在不同环境下的使用要求。

一种基于音向量文本特征的语音合成方法-201610000677.4
发明人：徐明星;车浩 -专利权人：极限元（杭州）智能科技股份有限公司
申请日： 2016-01-04 - 公布日： 2019-09-13 - 主分类号： G10L13/02
摘要：本发明公开了一种基于音向量文本特征的语音合成方法，文本分析模块接收输入文本，对文本特征进行规则化处理，将得到的文本数据输送至文本参数化模块，采用一位热码编码方法得到参数化的文本；音向量训练模块接收参数化的文本，训练基于音向量的语言模型，然后输送至语音参数训练模块训练从文本到语音参数的映射模型；音向量生成模块通过接收文本参数化模块和音向量训练模块的输出文本，生成文本数据的音向量；文本数据的音向量和文本到语音参数的映射模型输送至语音参数预测模块，得到音向量所对应的语音参数；最终由语音合成器模块合成语音。本发明提高了语音合成系统建模的准确性；大大降低了系统实现的复杂度和人工参与程度。

评价信息的通知方法及装置、存储介质、电子装置-201910430634.3
发明人：徐俊峰;周鹏 -专利权人：未来（北京）黑科技有限公司
申请日： 2019-05-22 - 公布日： 2019-09-10 - 主分类号： G10L13/02
摘要：本发明提供了一种评价信息的通知方法及装置、存储介质、电子装置，其中该方法包括：HUD设备接收网约车服务器推送的第一评价信息，其中，所述第一评价信息用于指示第一对象对第二对象的评价内容；所述HUD设备通过指定方式向所述第二对象通知所述第一评价信息的部分或全部内容，其中，所述指定方式至少包括以下之一：语音方式，图文显示方式和视频显示方式，采用上述技术方案，解决相关技术中网约车司机只能通过手机终端来才能查看客户评价进而导致的时效性差，存在行车安全隐患的问题。

面向情景及情感的中文语音合成方法、装置及存储介质-201910531628.7
发明人：彭话易;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-19 - 公布日： 2019-09-06 - 主分类号： G10L13/02
摘要：本发明属于人工智能技术领域，公开了一种面向情景及情感的中文语音合成方法、装置及存储介质，所述方法包括：获取输入语音；将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；根据所述合成语音的情感状态以及基于输入语音确定的待合成文本进行语音合成。本发明通过对输入语音进行情感状态分析，根据输入语音的情感状态获取合成语音的情感状态，在进行语音合成时，加入情感状态以及情景分析，使得合成语音的语气和情绪符合当前的交互场景，而不再是固定的语气和情绪，在人机交互过程中，输出的合成语音更像真人，增强用户体验。

语音合成方法和装置-201610049832.1
发明人：盖于涛;康永国;张少飞 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2016-01-25 - 公布日： 2019-09-03 - 主分类号： G10L13/02
摘要：本发明提出一种语音合成方法和装置，该语音合成方法包括：对要合成的文本进行文本特征提取，获取上下文特征信息；获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数；根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数；对所述多个韵律层级的基频参数进行基频重构；根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。该方法能够提高合成语音的表现效果。

语音合成装置及方法-201510607820.1
发明人：孙见青;王影;江源;胡国平;胡郁;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2015-09-22 - 公布日： 2019-09-03 - 主分类号： G10L13/02
摘要：本发明公开了一种语音合成装置及方法，该装置包括：模型构建模块，用于预先根据收集的大量发音人语音数据构建语音合成模型；接收模块，用于接收用户的待合成文本；风格确定模块，用于确定合成语音风格；模型修正模块，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；合成模块，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。利用本发明，可以使合成语音的风格更丰富自然，有效提高用户体验，增加娱乐性。

基于医学疾病数据的语音合成方法、装置及电子设备-201810536109.5
发明人：李成君;仇志雄;应旭河 -专利权人：杭州认识科技有限公司
申请日： 2018-05-29 - 公布日： 2019-08-30 - 主分类号： G10L13/02
摘要：本发明提供了一种基于医学疾病数据的语音合成方法、装置及电子设备，涉及医疗领域，以缓解现有技术中无法对医学领域进行语音合成的问题，能够基于医学领域的图谱进行语音合成。该方法包括获取患者的医学诊断图谱；将医学诊断图谱与医学数据库的所有知识图谱进行对比，生成相似度值；根据相似度值对知识图谱进行排序，并将相似度值最高的知识图谱作为疑似诊断知识图谱；当疑似诊断知识图谱的相似度值大于预设阈值时，获取与疑似诊断知识图谱对应的文字诊断信息；利用医学文字模型对文字诊断信息进行识别，得到文字诊断信息中包含的医学分词词语；将所述医学分词词语作为整体对所述文字诊断信息进行语音合成生成语音信息；将语音信息输出。

一种语音交互方法、设备及存储介质-201810789292.X
发明人：罗俊;陈敏;黄归;龙振海 -专利权人：腾讯科技（深圳）有限公司
申请日： 2018-07-18 - 公布日： 2019-08-23 - 主分类号： G10L13/02
摘要：本发明实施例公开了语音交互方法、设备及存储介质，应用于通信技术领域。在本实施例的方法中，在语音交互设备的本地存储中事先储存预置类型的文本对应的原始语音信息和/或播放格式语音信息，这样，当语音交互设备采集到用户输入语音或接收到用户触摸信息，确定对应的反馈文本，如果该反馈文本为预置类型的文本，直接从本地存储中即可获取到对应的原始语音信息和/或播放格式语音信息，以进行语音播放，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间。且如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间。

一种基于LSTM的音乐自动合成方法及系统-201910346123.3
发明人：刘立勋;赵一帆 -专利权人：吉林大学珠海学院
申请日： 2019-04-26 - 公布日： 2019-08-23 - 主分类号： G10L13/02
摘要：本发明的技术方案包括一种基于LSTM的音乐自动合成方法及系统，用于实现：准备多种不同类型的音乐数据，解析音乐数据获取对应的乐谱及时间节点，以及，将MIDI音符创建对应的第一向量；将对应歌曲的歌词进行分词处理，并以歌词为基准创建对应具有相关性的第二向量；使用时间循环神经网络将第一向量作为输入，以及，将第二向量作为输出，使用优化器学习预测处理；在时间索引的每个预测中输出每个状态的概率；将生成的结果重新编码为MIDI文件。本发明的有益效果为：使用的LSTM网络旨在从文本数据中学习，方便分析；直接使用文本数据最小化了编码‑解码方案和网络的整体设计过程，提高了效率；使得使用者更好的发现艺术的规律。

语音合成模型的训练方法、装置、设备及存储介质-201910407683.5
发明人：陈闽川;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-16 - 公布日： 2019-08-20 - 主分类号： G10L13/02
摘要：本发明设计人工智能领域并公开了一种语音合成模型的训练方法，该方法包括：在检测到第一待训练数据和第二待训练数据时，读取第一待训练数据中无标注文本信息和无标注语音信息，以及第二待训练数据中带标注文本信息和带标注语音信息；基于预置编码解码器模型，构建无标注文本模型和无标注语音模型；基于带标注文本信息和带标注语音信息，获取带标注文字特征的向量表征信息训练无标注语音模型，获取带标注声学特征的向量表征信息训练无标注文本模型，生成语音合成模型。本发明还公开了一种装置、计算机设备及存储介质。本发明采用大量无标签的语音数据或文本数据获得预训练模型，仅需要少量带标签语音数据和文本数据训练即可完成语音合成模型构建。

基于STARGAN与i向量的多对多说话人转换方法-201910397833.9
发明人：李燕萍;沙淮;吴佳怡;张燕 -专利权人：南京邮电大学
申请日： 2019-05-14 - 公布日： 2019-08-16 - 主分类号： G10L13/02
摘要：本发明公开了一种基于STARGAN与i向量的多对多说话人转换方法，包括训练阶段和转换阶段，使用循环对抗网络，通过降低循环对抗损失较好地提升转换后语音的个性相似度和语音质量，用STARGAN与i向量相结合来实现语音转换系统，较好地提升转换后语音的个性相似度和语音质量，特别是对于短时话语i向量具有更好的表征性能，语音转换质量更好，同时可以克服C‑VAE中过平滑的问题，实现了一种高质量的语音转换方法。此外，本方法能够实现非平行文本条件下的语音转换，而且训练过程不需要任何对齐过程，提高了语音转换系统的通用性和实用性。

一种多领域任务型对话系统和终端-201910323067.1
发明人：司马华鹏;皮仕婵 -专利权人：南京硅基智能科技有限公司
申请日： 2019-04-22 - 公布日： 2019-08-09 - 主分类号： G10L13/02
摘要：本发明公开了一种多领域任务型系统，解决了任务型对话系统中多域之间切换的问题，其技术方案要点是本公开提供的多域任务型对话系统包括：语音识别模块、多域置信状态跟踪模块、对话管理模块、自然语言生成模块和语音合成模块，其中多域置信状态跟踪模块为多域的，无需进行复杂的域模型切换就能够实现多域状态的跟踪，且各域之间实现了语义级的信息共享。

医疗系统和用于医疗系统的实时语言转换方法-201810014323.4
发明人：刘洁清 -专利权人：上海西门子医疗器械有限公司
申请日： 2018-01-08 - 公布日： 2019-07-16 - 主分类号： G10L13/02
摘要：本发明涉及一种医疗系统和用于医疗系统的实时语言转换方法。根据一实施方式，所述医疗系统包括：一医疗设备，所述医疗设备包括一主控模块，其中所述主控模块包括一语言处理模块；至少一语音输入模块，与所述主控模块连接并且能够将一源语音信号输入至所述主控模块的所述语言处理模块，其中，所述源语音信号能够通过所述语言处理模块被实时转换为一目标语音信号；以及至少一语音输出模块，与所述主控模块连接并且能够输出所述目标语音信号；并且其中，所述源语音信号与目标语音信号为不同语言的语音信号。利用本发明的系统和方法能够让使用不用语言的医护人员和患者进行相互沟通，大大简化摆位/诊断过程，医护人员不需要反复进出检查室。

模型管理和语音合成方法、装置和系统及存储介质-201910371127.7
发明人：黄志强;李秀林;李世龙;潘华山 -专利权人：标贝（深圳）科技有限公司
申请日： 2019-05-05 - 公布日： 2019-07-12 - 主分类号： G10L13/02
摘要：本发明的实施例提供了一种模型管理方法、装置和系统以及存储介质与一种语音合成方法、装置和系统以及存储介质。模型管理方法包括：步骤S110：接收用户请求信息，其中，用户请求信息包括用于指示目标声学模型的存储文件所在地址的地址信息；步骤S120：在声学模型池中查找目标声学模型；步骤S130：在未查找到目标声学模型的情况下，根据地址信息将目标声学模型加载到声学模型池中。上述方案可以实现声学模型的热加载，可以为用户提供极大的自由度。上述方案无需用户介入，可以减少用户操作，这有利于提高语音系统的工作效率，减少出错，同时可以有效地提升用户体验。上述方案可以很好地满足超大规模、超多发音人场景下的语音处理需求。

检测音响的系统和方法-201711457126.1
发明人：张志贤 -专利权人：东莞迪芬尼电声科技有限公司
申请日： 2017-12-28 - 公布日： 2019-07-05 - 主分类号： G10L13/02
摘要：本申请提出一种检测音响的系统及其检测的方法。检测音响的方法包含：执行一音频文件，并控制一待检测装置播放声音，其中所述音频文件是通过文本转语音(TTS)技术从一音频文本信息转换所产生的；录制所述声音，以得到一待测音频文件；上传所述待测音频文件并接收一待测信息，其中所述待测信息是所述待测音频文件经过语音辨识后所获得的信息；比对所述待测信息与所述音频文本信息；以及于所述音频文本信息与所述待测信息相符时，生成一正确信息，或者于所述音频文本信息与所述待测信息不相符时，生成一错误信息。

通讯加密方法、系统及计算机可读存储介质-201910243820.6
发明人：王远昌;罗胤豪 -专利权人：深圳市升弘创新科技有限公司
申请日： 2019-03-28 - 公布日： 2019-06-07 - 主分类号： G10L13/02
摘要：本发明公开一种通讯加密方法、系统及存储介质，方法包括：发送端获取普通话语音信号，通过发送端的语音识别系统识别普通话语音信号并转换成标准文本，然后由发送端的语音合成系统将标准文本转换成方言波形输出；接收端获取发送端输出的方言语音信号，通过接收端的语音识别系统识别方言语音信号并转换为标准文本，由接收端的语音合成系统将标准文本转换成普通话波形输出。本发明提高了通讯信息的保密效果。此外，还可提供多重加密的方式来确保通信的安全可靠。另外，还可在系统中使用不同语种的语言特征集合作为模型的输入特征，并加入语种标记和说话人标记，用来区分不同的语种和说话人，可以由普通话随机转换成各种不同的方言，以增加保密特性。

明星机器人互动方法及系统-201910247380.1
发明人：张子君;胡德轩 -专利权人：北京赢和博雅文化发展有限公司
申请日： 2019-03-29 - 公布日： 2019-05-17 - 主分类号： G10L13/02
摘要：本发明提供了一种明星机器人互动方法及系统。所述方法包括：采集用户通过电话传输的语音信号；对采集到的用户的语音信号进行语音识别，得到与用户的语音信号对应的识别文本；对识别文本进行语义理解，得到识别文本中的关键词、关键词组、关键子句；将关键词、关键词组、关键子句输入至编辑好的话术流程，得到用于应答的话术文本；根据明星本人的音色库，对话术文本进行语音合成，得到用于应答的应答语音；通过电话向用户播放应答语音。本发明提供的明星机器人互动方法及系统丰富了明星与粉丝用户之间的互动方式，提供了个性化专属定制体验，提高了明星‑粉丝用户互动平台的用户体验。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成装置及方法有效

专利文献下载