“语音合成”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果653652个，建议您升级VIP下载更多相关专利

[发明专利]语音自动合成装置及方法-CN201210133630.7有效
发明人：孙艳庆;庞敏辉;苏腾荣;朱璇 -专利权人：北京三星通信技术研究有限公司;三星电子株式会社
申请日： 2012-04-28 - 公布日： 2013-10-30 - 主分类号： G10L13/047 文献下载
摘要：本发明公开一种语音自动合成装置，包括：提取模块，用于从语音通话中自动提取出语音数据；增强检测模块，用于自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；综合标注模块，用于自动标注经归类后的语音数据，并且生成标注信息；验证筛选模块，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及语音合成模块，用于根据所述合成模型输出相应用户的语音。本发明提供的语音自动合成装置具备周期短、成本低且能够自动积累。
语音自动合成装置方法

[发明专利]语音翻译系统-CN201310130953.5有效
发明人：中村哲;隅田英一郎;苇苅丰;木村法幸;堀智织 -专利权人：独立行政法人情报通信研究机构
申请日： 2010-03-03 - 公布日： 2017-06-09 - 主分类号： G06F17/28 文献下载
摘要：在以往的网络型语音翻译系统中，不能根据说话者的属性来变更进行语音识别、翻译或语音合成的装置或模型，因此，在语音识别、翻译或语音合成的各处理中，精度降低、或产生不恰当的输出。在网络型的语音翻译系统中，根据说话者属性来适当地变更进行语音识别的服务器装置或语音识别模型，适当地变更进行翻译的服务器装置或翻译模型，或者适当地变更进行语音合成的服务器装置或语音合成模型，由此，在语音识别、翻译或语音合成的各处理中，提高精度、进行恰当的输出。
语音翻译系统

[发明专利]语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置-CN201080043645.3有效
发明人：中村哲;隅田英一郎;苇苅丰;木村法幸;堀智织 -专利权人：独立行政法人情报通信研究机构
申请日： 2010-03-03 - 公布日： 2012-07-04 - 主分类号： G10L15/10 文献下载
摘要：在以往的网络型语音翻译系统中，不能根据说话者的属性来变更进行语音识别、翻译或语音合成的装置或模型，因此，在语音识别、翻译或语音合成的各处理中，精度降低、或产生不恰当的输出。在网络型的语音翻译系统中，根据说话者属性来适当地变更进行语音识别的服务器装置或语音识别模型，适当地变更进行翻译的服务器装置或翻译模型，或者适当地变更进行语音合成的服务器装置或语音合成模型，由此，在语音识别、翻译或语音合成的各处理中，提高精度、进行恰当的输出。
语音翻译系统第一终端装置识别服务器以及合成

[发明专利]一种端到端的音色及情感迁移的中文语音克隆方法-CN202210846358.0在审
发明人：刘丁玮;陈铧浚;毛爱华;刘江枫;郭勇彬;张柳坚 -专利权人：华南理工大学
申请日： 2022-07-05 - 公布日： 2022-11-18 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法，步骤如下：采集用户录制的中文语音作为训练数据，提取出所需的语音特征；训练语音克隆合成模型，包括音色情感编码器、合成器和声码器三部分；利用训练完成的语音克隆合成模型，根据用户输入的语音或文字内容，生成语音克隆合成模型已有的指定说话人的语音；或根据用户输入的短时语音，快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆，通过多说话人模型，以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量，结合使用较多语料训练的生成模型进行语音克隆，实现了能够体现特定说话人音色和情感的语音克隆。
一种端到端音色情感迁移中文语音克隆方法

[发明专利]语音短信系统及其处理方法-CN201110069293.5有效
发明人：翁世芳;庄宗仁;张博 -专利权人：富泰华工业（深圳）有限公司;鸿海精密工业股份有限公司
申请日： 2011-03-22 - 公布日： 2017-06-06 - 主分类号： H04W4/12 文献下载
摘要：一种语音短信系统，包括语音处理模块、无线通讯模块、合成模块和服务器。语音处理模块接收语音信号并将其转换为数字信号后传送至无线通讯模块。无线通讯模块将语音信号传送至服务器。服务器包括存有语音数据及其对应的文本信息的语音库和一语音文字处理模块。该语音文字处理模块用于在该语音库中找到与该语音信息相匹配的语音信息，获取所匹配语音信息对应的文本信息。合成模块将该文本信息和该语音信息合成为一合成短信。本发明还提供一种语音短信控制方法。本发明提供的语音短信系统及其控制方法将用户的语音信息转换为一文本信息，并将该文本信息与该语音信息合成为一合成短信并发送。从而避免了发送方手动编辑短信的麻烦，省时且操作方便。
语音短信系统及其处理方法

[发明专利]语音博客发布与播放方法及语音博客系统-CN201110202638.X无效
发明人：张峰;黄伟 -专利权人：盛乐信息技术（上海）有限公司
申请日： 2011-07-19 - 公布日： 2011-11-02 - 主分类号： H04L29/08 文献下载
摘要：本发明揭示了一种语音博客发布与播放方法及语音博客系统，解决了现有文字博客系统的限制问题。该系统包括：语音接口单元，接收待发布的语音信息；语音识别单元，将所接收到的语音信息转换为文本信息；网络接口单元，将接收到的语音信息与对应的文本信息所通过网络服务器上传至网络数据库，并通过网络服务器连接网络数据库，以获取网络数据库关于待访问博客的信息；语音合成单元，将待访问博客信息中的没有对应语音信息的文字信息合成为语音信息；缓存单元，存储接收到的语音信息与对应的文本信息以及待访问博客信息中的语音信息或语音合成单元合成的语音信息；语音播放单元，播放待访问博客信息中的语音信息或语音合成单元合成的语音信息。
语音博客发布播放方法系统

[发明专利]一种不依赖发音词典的语音合成系统及方法-CN202210177013.0在审
发明人：刘畅;凌震华 -专利权人：中国科学技术大学
申请日： 2022-02-24 - 公布日： 2022-05-13 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种不依赖发音词典的语音合成系统及方法，系统包括：语种无关的语音识别模型、文本‑发音表征预测模型、发音表征‑声学预测模型和神经网络声码器。该系统及方法通过训练一个语种无关的自动语音识别模型，能自动地从目标语种的语音数据中提取发音表征，继而将发音表征用于构建语音合成系统。所构建语音合成系统首先从文本字符预测发音表征，再从发音表征生成语音。本发明可以解决传统语音合成方法在构建多语种语音合成系统时依赖语种相关发音词典的问题。发音词典的建立往往需要语言专家参与，耗费大量人力与时间。该方法相对现有从文本字符直接预测语音声学特征的方法可以降低合成语音中的发音错误，提高合成语音的自然度。
一种不依赖发音词典语音合成系统方法

[发明专利]一种文本驱动视频生成系统的实现方法-CN202310330246.4在审
发明人：孟凡满;伍家松;杨淳沨;孔佑勇;章品正;杨冠羽;陈阳;舒华忠 -专利权人：东南大学
申请日： 2023-03-30 - 公布日： 2023-07-07 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种文本驱动视频生成系统的实现方法，该方法把语音合成系统、视频生成系统集成到了一个系统。语音合成系统采用动态Web技术的JSP页面，通过执行后端服务器训练完成的语音合成模型，完成语音的生成，再通过框架把语音传送到前端，其中还增加了新增、删除、查询、批量删除、合成语音下载、合成语音变速等模块视频生成系统以语音合成系统为基石，既可以采用语音合成系统生成的语音，也可以采用任意用户上传的语音，以及任意一张人脸图片，通过JSP页面将语音和图片传送到后端服务器，后端加载训练完成的视频生成模型，完成视频的生成
一种文本驱动视频生成系统实现方法

[发明专利]语音克隆模型生成方法、装置及电子设备-CN202211419993.7在审
发明人：司玉景;王通;李全忠 -专利权人：普强时代（珠海横琴）信息技术有限公司
申请日： 2022-11-14 - 公布日： 2023-03-21 - 主分类号： G10L13/06 文献下载
摘要：本说明书实施例提供了一种语音克隆模型生成方法、装置及电子设备，其中，方法包括：构建包含多个说话人音色的语音合成音库；基于所述语音合成音库训练得到包含多个说话人ID的语音合成基础模型；获取目标说话人的语音和标注，从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID；在语音合成基础模型中设置该说话人的ID作为语音克隆的预训练模型，利用目标说话人的语音和标注文本，进行自适应训练，得到所述目标说话人的语音合成模型本发明可以避免由于预训练模型和目标说话人发音差异较大而导致的语音克隆效果差的现象，进一步提高了语音克隆的合成效果和鲁棒性。
语音克隆模型生成方法装置电子设备

[发明专利]语音合成模型的训练方法、装置及语音合成方法、装置-CN202311106935.3在审
发明人：张青辉;王英 -专利权人：世优（北京）科技有限公司
申请日： 2023-08-30 - 公布日： 2023-09-29 - 主分类号： G10L15/06 文献下载
摘要：本申请提供了一种语音合成模型的训练方法、装置及语音合成方法、装置，其中，该训练方法包括：获取与待模仿对象的声音对应的待模仿音频；将待模仿音频输入到预先构建的语音合成模型中，其中，语音合成模型将待模仿音频转换为文本，从文本对应的音素序列中提取声音特征，从待模仿音频中提取高分辨率声学特征，融合高分辨率声学特征和声音特征，并基于融合后的特征生成与文本对应的合成音频；根据合成音频和待模仿音频确定语音合成模型的损失，并基于损失更新语音合成模型的网络参数，以训练语音合成模型。本申请解决了现有的语音合成模型合成出的声音与待模仿对象的声音的相似度不够高的技术问题。
语音合成模型训练方法装置

[发明专利]语音合成方法、语音合成装置以及电子设备-CN202210518612.4在审
发明人：周到;陈昌滨 -专利权人：北京世纪好未来教育科技有限公司
申请日： 2022-05-13 - 公布日： 2022-08-30 - 主分类号： G10L13/08 文献下载
摘要：本申请公开了一种语音合成方法、语音合成装置以及电子设备。该语音合成方法包括：获取待合成语音对应的声学特征，该声学特征包括音高，音高是指语音的高度，表示语音的频率和波长；对该声学特征进行处理，生成第一音频信号；对该第一音频信号进行修正，得到修正的语音信号。
语音合成方法装置以及电子设备

[发明专利]语音合成方法、装置、存储介质及电子设备-CN202011212351.0有效
发明人：徐晨畅;潘俊杰 -专利权人：北京有竹居网络技术有限公司
申请日： 2020-11-03 - 公布日： 2023-03-10 - 主分类号： G10L13/10 文献下载
摘要：本公开涉及一种语音合成方法、装置、存储介质及电子设备，以得到带重音的合成语音，并保证合成语音中重音发音的准确性。该语音合成方法包括：获取标注有重音词的待合成文本；将所述待合成文本输入语音合成模型中，以得到所述待合成文本对应的音频信息，所述语音合成模型是通过标注有重音词的样本文本和所述样本文本对应的样本音频训练得到的，所述语音合成模型用于通过如下方式对所述待合成文本进行处理：确定所述待合成文本对应的音素序列；根据所述待合成文本中标注的所述重音词，确定音素级别的重音标签；根据所述音素序列和所述重音标签，生成所述待合成文本对应的音频信息
语音合成方法装置存储介质电子设备

[发明专利]语音合成方法及装置、电子设备及存储介质-CN202210483322.0在审
发明人：杨丰煜;朱汐;王永庆;王怡苹 -专利权人：北京小米移动软件有限公司;北京小米松果电子有限公司
申请日： 2022-05-05 - 公布日： 2022-10-04 - 主分类号： G10L13/08 文献下载
摘要：本公开实施例提供一种语音合成方法、装置、电子设备及计算机可读存储介质，所述消息处理方法包括：获取语障用户输入的文本数据；将所述文本数据输入至语音合成模型，得到合成语音数据；其中，所述合成语音数据和所述文本数据具有相同的语言内容，所述合成语音数据为音频数据；其中，所述语音合成模型为通过机器学习的方法使用样本集对基础模型进行训练得到，所述样本集包括：所述目标语音特征和与所述目标语音特征的语言内容相对应的文本数据，其中所述目标语音特征为预先选择的目标用户的语音特征
语音合成方法装置电子设备存储介质

[发明专利]一种语音合成模型的训练方法、语音合成的方法及装置-CN202011336173.2在审
发明人：张泽旺 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-11-24 - 公布日： 2021-09-14 - 主分类号： G10L13/04 文献下载
摘要：本申请公开了一种基于人工智能技术实现的语音合成模型训练方法，具体涉及语音处理技术领域。本申请包括：获取待训练样本对；基于待训练文本，通过语音合成模型获取第一梅尔谱；基于第一梅尔谱，通过语音识别模型获取第一音素序列；根据第一梅尔谱与真实梅尔谱之间的损失值，以及第一音素序列以及标注音素序列之间的损失值，对语音合成模型的模型参数进行更新。本申请实施例提供了还一种语音合成的方法及装置，能够结合语音识别误差和频谱误差综合评估语音合成模型，从而有利于训练得到预测效果更佳的语音合成模型，提升合成语音的准确度。
一种语音合成模型训练方法装置

[发明专利]一种语音合成方法和装置-CN202310078716.2在审
发明人：樊冯飞;姚树杰;赵言;先永春 -专利权人：鼎富新动力（北京）智能科技有限公司
申请日： 2023-01-17 - 公布日： 2023-05-12 - 主分类号： G10L13/027 文献下载
摘要：本申请提供了一种语音合成方法和装置，能够提升合成的语音的拟人化程度，使得合成的语音情感丰富。该方法包括：获取与训练文本对应的训练音频及标准的梅尔频谱；根据训练文本和训练音频，提取训练音频中每个音素的标准的语音特征；根据训练文本和训练音频，确定训练文本的情感标签序列，情感标签序列包含的数字表征训练文本中相应位置的文字是否用于表达情感；根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识，确定训练数据；基于训练数据训练语音合成模型，使得语音合成模型学习到每个音素的语音特征，以及每个文字的情感特征；根据目标文本和训练好的语音合成模型，确定目标文本对应的合成语音。
一种语音合成方法装置