[发明专利]一种文本处理方法和装置、计算机存储介质和电子设备有效

申请号：	201911394467.8	申请日：	2019-12-30
公开（公告）号：	CN111145722B	公开（公告）日：	2022-09-02
发明（设计）人：	张征;雷欣;李志飞	申请（专利权）人：	出门问问信息科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G06F40/253
代理公司：	北京乐知新创知识产权代理事务所(普通合伙) 11734	代理人：	江宇
地址：	100044 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文本处理方法，包括：获得待处理的原始文本；对原始文本基于预设的TN规则进行文本正则化处理，获得经TN处理后的第一输出文本和原始转写列表；其中，原始转写列表中包括至少一项原始转写记录，每一项原始转写记录对应第一输出文本中的一处转写文本，且第一输出文本中对各转写文本进行标记。本发明还公开了一种文本处理装置、计算机可读存储介质和电子设备。
搜索关键词：	一种文本处理方法装置计算机存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于出门问问信息科技有限公司，未经出门问问信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201911394467.8/，转载请声明来源钻瓜专利网。

上一篇：一种黄色染料混合物及其应用和染色法
下一篇：FP腔GaN基激光器及其制作方法

同类专利

朗诵音频生成方法、装置、计算机设备和存储介质-202311019255.8
发明人：徐东 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-08-11 - 公布日： 2023-10-27 - 主分类号： G10L13/08
摘要：本申请涉及一种朗诵音频生成方法、装置、计算机设备和存储介质。所述方法包括：将待朗诵文本输入至预训练的句法分割模型，得到文本句法信息；将文本句法信息输入至句法编码模型，得到句法编码特征；获取待朗诵文本的音素编码特征，将音素编码特征和句法编码特征输入至特征融合模型，得到文本编码特征；将文本编码特征输入至生成器，得到待朗诵文本对应的音频频谱；将音频频谱输入至声码器，得到待朗诵文本对应的目标朗诵音频。采用本方法能够细致分析并融合文本的音素特征和句法特征，得到具有句法韵律特征的文本特征，从而利用生成器和声码器，基于文本特征生成体现待朗诵文本句法韵律特征的朗诵音频，进而提高诗歌朗诵音频的获取效率。

基于扩散过程的文本转语音模型的构建方法及应用-202310665315.7
发明人：许振影;张旷;杨啸天;傅亦婷;周华健;赵宇飞 -专利权人：浙江一山智慧医疗研究有限公司
申请日： 2023-06-06 - 公布日： 2023-10-27 - 主分类号： G10L13/08
摘要：本申请提出了一种基于扩散过程的文本转语音模型的构建方法及应用，包括以下步骤：搭建文本转语音模型，包括预训练的文本模型、去噪扩散模型和音频模型；使用配对的文本‑音频数据，提取文本向量和音频向量；通过去噪扩散模型对音频向量进行正向扩散，得到噪声音频和反向扩散的噪声估计；重构噪声音频，利用重构音频与文本的匹配程度迭代训练去噪扩散模型，直到满足要求。本方案在预训练的语言模型的基础上引入扩散过程，通过扩散和逆扩散过程来使得文本转语音模型可以更好的判断文本数据中的噪声，从而生成更加精准的音频数据，完成整个文本转语音的过程，且降低了文本转语音模型的构建成本。

一种读音预测方法、装置及相关产品-202310279558.7
发明人：田彦培;胡海峰;孙钟前 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-03-20 - 公布日： 2023-10-27 - 主分类号： G10L13/08
摘要：本申请实施例公开了一种读音预测方法、装置及相关产品，将目标文本中的字符转换为向量表示；从转换得到的多个字符的向量表示中，提取目标多音字的向量表示及目标多音字的关联字符的向量表示；调用多个读音预测模型中与目标多音字对应的读音预测模型；基于目标多音字的向量表示及目标多音字的关联字符的向量表示，利用目标多音字对应的读音预测模型预测目标多音字在目标文本中的读音。可见，目标多音字对应的读音预测模型针对目标多音字进行读音预测，能够对该读音预测模型的读音预测能力进行单独提升，不会对其他多音字的读音预测能力造成影响，由此将不同多音字的读音预测解耦，提高对文本中不同多音字读音预测的准确性。

在对话期间文本转语音中的即时学习-202280018078.9
发明人：维贾亚迪特亚·培丁蒂;布瓦那·拉马巴德兰;安德鲁·罗森伯格;马特乌什·戈文别夫斯基 -专利权人：谷歌有限责任公司
申请日： 2022-02-28 - 公布日： 2023-10-27 - 主分类号： G10L13/08
摘要：用于在对话期间在文本转语音(TTS)中的即时学习的方法包括接收存在于由用户说出的查询中的特定单词的用户发音(202)。该方法还包括接收存在于TTS输入中的相同特定单词的TTS发音(204)，其中该特定单词的TTS发音不同于该特定单词的用户发音。该方法还包括获得与该特定单词相关联的用户发音相关特征(210)和TTS发音相关特征(230)。该方法还包括生成选择与最高置信度相关联的该特定单词的用户发音或TTS发音之一的发音决策(250)。该方法还包括提供TTS音频，该TTS音频包括使用该特定单词的用户发音或TTS发音对查询的响应的合成语音表示。

字幕注音方法、装置、电子设备及存储介质-202210351678.9
发明人：陈小帅 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-04-02 - 公布日： 2023-10-24 - 主分类号： G10L13/08
摘要：本申请涉及计算机技术领域，尤其涉及一种字幕注音方法、装置、电子设备及存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等场景，用以提高中文字幕的注音准确性。其中，方法包括：获取字幕文本包含的至少一个多音字各自关联的多个候选拼音；提取字幕文本的文本语义特征，并基于文本语义特征获得至少一个多音字各自对应的语义特征；提取字幕文本对应的音频片段的音频特征；针对至少一个多音字分别执行以下操作：基于一个多音字的语义特征以及音频特征，确定一个多音字关联的多个候选拼音各自对应的匹配概率，并基于多个匹配概率从多个候选拼音中选取目标拼音，对一个多音字进行标注；这样可以准确地对中文字幕进行注音，提高注音准确性。

语音合成停顿预测方法及装置、电子设备和存储介质-202311007910.8
发明人：请求不公布姓名 -专利权人：摩尔线程智能科技（北京）有限责任公司
申请日： 2023-08-10 - 公布日： 2023-10-24 - 主分类号： G10L13/08
摘要：本公开涉及语音合成停顿预测方法及装置、电子设备和存储介质，该方法包括：对输入文本进行分词处理，确定所述输入文本中的词；获取各所述词对应的第一特征，所述第一特征表征所述词的语义；获取各所述词的第二特征，所述第二特征表征所述词的实体关系；根据所述第一特征和所述第二特征，确定所述词的停顿方式。这样，使用本方法可以提高确定词的停顿方式的准确性。

语音合成方法、装置、计算机设备和存储介质-202011562944.X
发明人：刘夏冰 -专利权人：深圳追一科技有限公司
申请日： 2020-12-25 - 公布日： 2023-10-24 - 主分类号： G10L13/08
摘要：本申请涉及一种语音合成方法、装置、计算机设备和存储介质，适用于计算机技术领域。方法包括：获取待合成的目标文本，目标文本由至少两种语言组成；将目标文本输入至文本合成模型中，文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块；分别通过至少两个特征提取模块对目标文本进行特征提取处理，得到与至少两个特征提取模块一一对应的至少两个文本特征；通过特征融合模块将至少两个文本特征进行融合处理，得到融合特征；通过语音转换模块，对融合特征进行语音转换处理，得到目标文本对应的合成语音。采用本方法能够将至少由两种语言组成的目标文本合成对应的合成语音。

语音合成方法、装置、存储介质和电子设备-202311090460.3
发明人：张青辉;王英 -专利权人：世优（北京）科技有限公司
申请日： 2023-08-28 - 公布日： 2023-10-24 - 主分类号： G10L13/08
摘要：本申请提供了一种语音合成方法、装置、存储介质和电子设备，其中，该方法包括：获取与待处理的文本对应的音素序列以及与待模仿对象的声音对应的待模仿音频；从所述待模仿音频中提取高分辨率声学特征，并基于所述高分辨率声学特征来对所述音素序列进行处理，得到语音波形片段，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征；对所述语音波形片段进行优化处理，并对优化处理后的所述语音波形片段进行重叠和拼接，以合成目标语音。本申请解决了相关技术中合成语音与待模仿对象的声音的相似度不够高的技术问题。

语音合成方法、装置、电子设备和存储介质-202311041784.8
发明人：王玮;宋乾标;程旭;周旸旻;李全 -专利权人：安徽听见科技有限公司
申请日： 2023-08-16 - 公布日： 2023-10-20 - 主分类号： G10L13/08
摘要：本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：提取目标文本中每个片段所包含角色的角色属性；将所述角色属性与预设角色属性进行匹配，并基于属性匹配结果，对所述角色属性进行角色标记，得到所述角色属性所对应角色的角色场景；基于所述每个片段所包含角色的角色场景，合成并拼接每个片段的片段语音，得到所述目标文本对应的合成语音。本发明提供的方法、装置、电子设备和存储介质，能够遵循角色随情节推动变化的特性，由此合成的语音更加贴合情节，风格更加多样化，从而给用户带来更好的听书体验。

媒体声效切换方法、装置、电子设备及存储介质-202311048078.6
发明人：唐梦佳 -专利权人：重庆长安汽车股份有限公司
申请日： 2023-08-18 - 公布日： 2023-10-20 - 主分类号： G10L13/08
摘要：本申请涉及一种媒体声效切换方法、装置、电子设备及存储介质，该方法包括：获取目标音频处于目标播放阶段的音频特征，其中，目标音频包括至少一个播放阶段，至少一个播放阶段包括目标播放阶段；将音频特征输入至预先训练的声效匹配模型，得到与音频特征匹配的目标媒体声效，其中，声效匹配模型是利用预设机器学习算法预先训练得到的；将目标音频处于目标播放阶段的媒体声效切换为目标媒体声效。这样，可以利用预先训练的声效匹配模型，对目标音频处于目标播放阶段的音频特征进行预测，得到与音频特征匹配的目标媒体声效，进而实现对目标音频处于目标播放阶段的媒体声效的自动切换，无需用户手动设置或选择媒体声效，简化了用户操作。

一种语音合成方法、设备及介质-202310192642.5
发明人：杨会宝;刘莹;钟荣秀;张世磊 -专利权人：中国移动通信有限公司研究院;中国移动通信集团有限公司
申请日： 2023-02-24 - 公布日： 2023-10-20 - 主分类号： G10L13/08
摘要：本发明提供一种语音合成方法、设备及介质，涉及人工智能领域，其中，所述语音合成方法包括：获取待合成的音素信息；利用非自回归声学模型处理所述音素信息，获取所述音素信息对应的第一梅尔频谱信息；根据所述第一梅尔频谱信息，合成目标语音。在语音合成过程中，具体采用非自回归声学模型对音素信息进行处理，获取对应的梅尔谱，能够充分利用处理器的并行能力，进而可以加快合成速度，且减少错误累积和错误传递，即在提高语音合成速度的同时提高语音合成的鲁棒性。

基于语义语调的方言语音生成方法、系统及介质-202311020306.9
发明人：高健豪;崔晓乾 -专利权人：成都信通信息技术有限公司
申请日： 2023-08-15 - 公布日： 2023-10-20 - 主分类号： G10L13/08
摘要：本发明公开了基于语义语调的方言语音生成方法、系统及介质，涉及语音合成技术领域；识别次方言语音输入信息并进行语义语调相似度分析，根据语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音输出；本方案在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并根据次方言规则对基本方言输出文本进行修正，按照次方言规则输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题。

语音合成方法、系统、终端及存储介质-202310933990.3
发明人：孙见青;梁家恩 -专利权人：云知声智能科技股份有限公司
申请日： 2023-07-27 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：本发明提供了一种语音合成方法、系统、终端及存储介质，该方法包括：根据样本语音训练声调预测模型；分别获取语音样本和语音合成样本的基频信息进行聚类，得到第一聚类信息；根据第一聚类信息对语音合成样本进行声调设置，根据声调设置后的语音合成样本训练端到端语音合成模型；将待合成文本的拼音信息输入训练后的声调预测模型进行声调预测，得到输出拼音，将输出拼音输入训练后的端到端语音合成模型进行语音合成，得到合成语音。本发明实施例，通过将输出拼音输入训练后的端到端语音合成模型进行语音合成，能自动得到待合成文本对应的合成语音，无需人工建立发音信息的构建规则，提高了语音合成系统搭建效率。

一种基于发音人向量的语音合成方法和装置-202310735509.X
发明人：涂清华;吴松城 -专利权人：厦门黑镜科技有限公司
申请日： 2023-06-20 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：本发明公开了一种基于发音人向量的语音合成方法和装置，该方法包括：根据预设文本分析算法对待处理文本进行分析，得到前端文本特征，基于预设声学模型对前端文本特征进行编码，得到与语种信息和发音人信息解耦的编码特征，基于预设声纹模型从目标发音人的音频中提取发音人向量。基于预设声学模型对编码特征、发音人向量和目标语种信息进行解码，得到依次生成的多个频谱帧，将各频谱帧依次输入预设声码器，生成目标音频，以此利用从预设声纹模型提取的发音人向量，实现对预设声学模型的微调，从而提高了语音合成的效率。

语音合成方法、语音合成装置、设备和存储介质-202310633205.2
发明人：张旭龙;王健宗;程宁;唐浩彬 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：本发明实施例提供语音合成方法、语音合成装置、设备和存储介质，涉及人工智能及数字医疗技术领域。该方法包括：获取目标文本，然后根据目标文本的句式在预设尾音模板库中选取尾音韵律向量，利用特征编码器获取目标文本的特征编码向量，利用特征解码器对特征编码向量和尾音韵律向量进行特征解码，得到目标声谱图，最后根据目标声谱图生成目标文本的目标语音。本申请实施例在进行语音合成时，根据目标文本的句式选择对应的尾音韵律向量，在进行特征解码形成声谱图的过程中，结合尾音韵律合成目标文本的目标语音，提升合成语音的自然度，扩展文本到语音合成技术的应用范围。

一种提高用户交互流畅度的方法和装置-202311140532.0
发明人：王帅;谭克强;周舒婷;蒋维中;赵磊 -专利权人：四川蜀天信息技术有限公司
申请日： 2023-09-06 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：本发明提供了一种提高用户交互流畅度的方法和装置，包括：用户终端采集用户的语音输入数据并发送给后端服务器，以使后端服务器对语音输入数据进行语音识别和语义理解处理得到预处理文本，并将预处理文本对应的答案文本进行流处理，得到流处理后的文本信息；接收后端服务器发送的流处理后的文本信息；将流处理后的文本信息进行分割处理得到文字队列，并将文字队列中的第一元素转化为音频文件，从而构成音频队列；将音频队列中的音频按顺序进行播放并响应动画播放优先级指令；利用文字队列与音频队列协同工作，实现对应答文本实时播报，缩短端到端的响应时长进而减少用户等待时间，同时配合动画播放优先级指令提高用户在听觉、视觉上交互流畅度。

基于扩散模型的多模态融合音频生成方法及装置-202311144835.X
发明人：易江燕;周俊佐;陶建华;汪涛 -专利权人：中国科学院自动化研究所
申请日： 2023-09-06 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置，所述方法包括：响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频，在本公开中，不同类型的信息分别对应的编码器通过对比联合训练得到，在有限的数据集中训练出的编码器，能够输出合理的模态融合信息，从而更加准确地生成音频。

音频合成方法、装置、终端设备及存储介质-202310681906.3
发明人：郑国凯;张辽 -专利权人：广州小鹏汽车科技有限公司
申请日： 2023-06-08 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：本申请公开了一种音频合成方法、装置、终端设备及存储介质，其音频合成方法包括：获取待合成文本；通过预设的个性化TTS模型对待合成文本进行音频合成，得到目标音频信息，其中，个性化TTS模型基于预先获取的个性化音频素材和预设的原始TTS模型重新训练得到。基于本申请方案，通过重新训练得到的个性化TTS模型能够对待合成文本进行音频合成得到效果更为丰富的目标音频信息，能够满足用户的个性化需求，提高了用户体验。

用于辅助系统的包括非拉丁或不可解析内容项的通信内容的读出-202280015966.5
发明人：莱夫·黑文·马丁森;斯瓦蒂·戈尔;伊拉娜·奥利·沙洛维茨;杰西卡·基钦斯 -专利权人：元平台公司
申请日： 2022-02-17 - 公布日： 2023-10-13 - 主分类号： G10L13/08
摘要：在一个实施例中，一种方法包括：访问通信内容，该通信内容包括零个或多个拉丁文字文本字符串、以及一个或多个非拉丁文字内容项；基于解析规则确定通信内容的读出，其中，解析规则基于非拉丁文字内容项的属性指定该读出的格式，并且其中，该读出包括零个或多个拉丁文字文本字符串、和对非拉丁文字内容项的描述；以及向客户端系统发送用于呈现通信内容的读出的音频渲染的指令。

一种语音数据的合成方法、装置、电子设备及存储介质-202310610651.1
发明人：丛亚欢;马泽君 -专利权人：北京有竹居网络技术有限公司
申请日： 2023-05-26 - 公布日： 2023-10-10 - 主分类号： G10L13/08
摘要：本公开涉及语音处理技术领域，公开了一种语音数据的合成方法、装置、电子设备及存储介质，方法包括：获取语音合成任务，语音合成任务包括目标语言类型对应的文本信息以及原始语言类型对应的风格标识；利用文本信息以及风格标识预测目标风格特征，目标风格特征是利用原始语言特征进行处理后得到的风格特征，原始语言特征是风格标识在原始语言类型下对应的语言特征；基于文本信息以及目标风格特征合成目标语言类型对应的目标语音数据。本公开提供的方法在基于文本信息和风格标识预测风格特征的过程中，利用原始语言类型的原始语言特征对风格特征进行处理，得到目标风格特征，以此保证跨语种迁移时所得风格特征的准确性，增强了合成音频的效果。

语音合成方法、装置、计算机设备及存储介质-202310682695.5
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-10-10 - 主分类号： G10L13/08
摘要：本发明公开了一种语音合成方法、装置、计算机设备及存储介质，该方法包括：获取目标文本数据；采用联合情感预测器对所述目标文本数据进行情感预测，获取目标情感类型向量和目标情感强度标量；采用联合情感编码器对所述目标情感类型向量和所述目标情感强度标量进行处理，获取联合情感嵌入向量；采用语音合成模块对所述目标文本数据和所述联合情感嵌入向量进行处理，获取所述目标文本数据对应的目标合成语音。本发明在对文本数据进行语音合成过程中，同时考虑情感类型和情感强度两个因素来合成语音，使得合成语音的情感更加细腻，更接近人类真实的情感表达。

语音合成方法、装置、计算机设备和存储介质-201980003188.6
发明人：黄东延;盛乐园;熊友军 -专利权人：深圳市优必选科技股份有限公司
申请日： 2019-12-24 - 公布日： 2023-10-10 - 主分类号： G10L13/08
摘要：本发明实施例公开了一种语音合成方法、装置、计算机设备和计算机可读存储介质，包括：获取待合成语音文本；根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱；将所述梅尔频谱输入复数神经网络，得到所述待合成语音文本对应的复数频谱，所述复数频谱包括实部信息和虚部信息；根据所述复数频谱得到所述待合成语音文本对应的合成语音。通过本发明能够高效、简单的完成语音合成。

音律边界标签标注方法和语音合成方法-202310687259.7
发明人：强春雨 -专利权人：北京达佳互联信息技术有限公司
申请日： 2023-06-09 - 公布日： 2023-10-03 - 主分类号： G10L13/08
摘要：本公开关于一种音律边界标签标注方法和语音合成方法，涉及人工智能技术领域，可以提高音律边界标签标注的准确率。该标注方法包括：获取样本文本的音素序列、标点序列以及样本文本对应的语音片段；样本文本包括文字和标点；音素序列包括音素以及初始音律边界标签；通过初始声学模型，得到样本文本对应的音频特征；初始声学模型通过音素序列、标点序列和语音片段训练得到；根据音频特征，确定初始音律边界标签各自对应的分布时长；根据分布时长，对初始音律边界标签进行更新，得到目标音律边界标签；目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签。

基于人脸网格的语音合成系统-202310176960.2
发明人：金宸极;林菲;张聪 -专利权人：杭州电子科技大学
申请日： 2023-02-28 - 公布日： 2023-09-29 - 主分类号： G10L13/08
摘要：本发明属于计算机视觉技术领域，尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤：S1.搭建唇动模型，通过编码器从视频数据中提取唇动级特征；S2.视频语音识别，选择视频作为模型的输，并通过唇动视频预测说话者所讲述的内容，形成文本；S3.文本到语音生成，通过自回归的方式合成文本所对应的梅尔频谱，再通过音频解码器合成音频波形。与现有的技术相比，本基于人脸网格的语音合成系统的优点在于：能够提高正确度，直接通过高级特征(唇部动作)进行唇读。

跨语种的语音合成方法、装置、电子设备和存储介质-202310735506.6
发明人：涂清华;吴松城 -专利权人：厦门黑镜科技有限公司
申请日： 2023-06-20 - 公布日： 2023-09-29 - 主分类号： G10L13/08
摘要：本发明公开了一种跨语种的语音合成方法、装置、电子设备和存储介质，该方法包括：根据预设文本分析算法对待处理文本进行分析，得到前端文本特征，基于预设声学模型对前端文本特征进行编码，得到与语种信息和发音人信息解耦的编码特征。基于预设声学模型对编码特征、预设发音人向量和预设语种信息进行解码，得到依次生成的多个频谱帧，将各频谱帧依次输入预设声码器，生成目标音频，以此在编码时对语种信息和发音人信息解耦，并在解码时加入预设发音人向量和预设语种信息，无需提供多语种数据进行模型训练，从而高效的实现了跨语种的语音合成。

语音生成模型构建方法、语音生成方法、设备及存储介质-202310813525.6
发明人：黄浩智;李伟钦;吴志勇 -专利权人：深圳元象信息科技有限公司;清华大学深圳国际研究生院
申请日： 2023-07-05 - 公布日： 2023-09-29 - 主分类号： G10L13/08
摘要：本申请提供了一种语音生成模型构建方法、语音生成方法、设备及存储介质，待构建的模型包括音素编码器、标签预测器、可变信息适配器以及解码器，方法通过获取多个文本信息及其对应的语音信息，从语音信息中提取频谱信息，将文本信息作为训练样本；基于训练样本获取音素信息输入至音素编码器中，获取关于训练样本的第一编码信息输入至标签预测器，获取关于训练样本的标签信息；将第一编码信息和标签信息输入至可变信息适配器中，获取训练样本的时长信息、基频信息和能量信息输入至解码器中，获取预测频谱信息，计算预测频谱信息与频谱信息的损失函数至满足预设收敛条件。提升了模型合成自发现象的自然性以及预测合理自发现象的能力。

一种信息化合成语音的识别方法-202310835802.3
发明人：郑威;云剑;凌霞;郑晓玲;周凡棣;海涵;辛鑫;刘澎 -专利权人：中国信息通信研究院
申请日： 2023-07-07 - 公布日： 2023-09-26 - 主分类号： G10L13/08
摘要：本发明公开了一种信息化合成语音的识别方法，涉及智能语音技术领域，用于解决信息化合成语音识别判定的精准性较的问题，具体步骤包括：采集样本语音并进行预处理，获取处理语音；通过语音内容分析模型对处理语音进行音频特征提取，并对处理语音进行文本转化，生成处理语音文本；对处理语音文本进行文本内容特征的提取，并公式化分析生成兴奋系数；设置兴奋系数比对阈值，将兴奋系数比对阈值与兴奋系数进行比对处理，生成情绪标识；对音频特征进行分析，生成音文差异值，对音文差异值进行阈值比对，进而生成音文符合程度标识；将情绪标识和音文符合程度标识进行整合处理，生成识别目标，并对对应样本语音进行标记。

一种音频编辑方法及装置、电子设备及存储介质-202310538558.4
发明人：陶建华 -专利权人：清华大学
申请日： 2023-05-15 - 公布日： 2023-09-26 - 主分类号： G10L13/08
摘要：本公开涉及一种音频编辑方法及装置、电子设备及存储介质，所述方法包括：确定待编辑音频对应声学特征的掩码区域；对待编辑音频对应声学特征的掩码区域进行掩码；从掩码后声学特征中提取中性音频特征；根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，能够让用户自由选择所需的情感风格，以增强生成音频的表现力和自然度。

一种藏语安多方言语音合成语料库的构建方法及系统-202310790913.7
发明人：更太加 -专利权人：青海民族大学
申请日： 2023-06-29 - 公布日： 2023-09-22 - 主分类号： G10L13/08
摘要：本发明公开一种藏语安多方言语音合成语料库的构建方法及系统，涉及人工智能技术领域，构建方法包括：基于爬虫技术获取多个藏文文本语句；对多个藏文文本进行筛选得到多个藏文语句；对多个藏文语句进行文本归一化处理得到多个藏文文本语料；对多个所述藏文文本语料进行筛选得到多个音素平衡的藏语语音文本；对每一藏语语音文本进行录音得到基础录音；对基础录音进行处理，得到对应的规范语音数据；对规范语音数据进行语料标注得到标注数据；根据每一藏语语音文本对应的藏文文本语句和对应的标注数据构建语料库；语料库用于对待检测的藏文文本语句进行检测，得到对应的标注数据。本发明创建了一种高质量、高自然度及高稳定性的语音合成语料库。

一种基于变分自编码器的并行语音合成方法和装置-202110669900.5
发明人：吴志勇;卢辉 -专利权人：清华大学深圳国际研究生院
申请日： 2021-06-17 - 公布日： 2023-09-22 - 主分类号： G10L13/08
摘要：本发明公开了一种基于变分自编码器的并行语音合成方法和装置，包括如下步骤：S1、接收输入文本，并进行字音转换，得到对应的发音序列；S2、对所述发音序列进行上下文信息的建模和编码，得到包含上下文信息的语言学特征；S3、根据所述语言学特征，预测对应的目标声学特征的帧数；S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量；S5、将所述语言学特征对齐到所述隐变量上，从对齐的语言学特征中预测目标声学特征，再将所述目标声学特征转换为语音波形信号输出。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本处理方法和装置、计算机存储介质和电子设备有效

专利文献下载