[发明专利]语音合成方法、装置、存储介质和电子设备有效

申请号：	202010167710.9	申请日：	2020-03-11
公开（公告）号：	CN111369971B	公开（公告）日：	2023-08-04
发明（设计）人：	殷翔;顾宇	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G10L13/10	分类号：	G10L13/10;G10L13/08;G10L13/04
代理公司：	泰和泰律师事务所 51219	代理人：	祝海燕
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本公开涉及一种语音合成方法、装置、存储介质和电子设备，所述方法包括：获取待合成文本对应的语音特征信息，所述语音特征信息包括韵律边界信息，所述韵律边界信息用于将所述待合成文本划分成多个韵律词；确定所述待合成文本的文本特征对应的目标韵律模式；根据所述目标韵律模式对应的韵律特征对每一所述韵律词进行语音合成获得所述待合成文本对应的声学特征；根据所述声学特征，获得与所述待合成文本对应的音频信息。因此，在进行语音合成时，充分考虑了用户正常的朗读韵律，从而可以使得语音合成后获得音频信息符合人类的朗读韵律，避免现有技术中机械朗读给用户造成的不适。同时，使得语音合成的音频数据与待合成文本的文本特征相匹配。
搜索关键词：	语音合成方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司，未经北京字节跳动网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202010167710.9/，转载请声明来源钻瓜专利网。

上一篇：路侧感知系统
下一篇：身份识别方法、装置、设备及存储介质

同类专利

语音合成方法、模型训练方法、装置、设备和存储介质-202310475285.3
发明人：詹杰;李健 -专利权人：暗物智能科技（广州）有限公司
申请日： 2023-04-27 - 公布日： 2023-10-27 - 主分类号： G10L13/10
摘要：本发明公开了一种语音合成方法、模型训练方法、装置、设备和存储介质，所述方法包括：获取包括多种语言的目标文本和所述目标文本的韵律信息；对所述目标文本中不同语言的文字进行音素标记，得到所述目标文本中不同语言的文字的音素标记信息；所述音素标记信息包括不同语言文字的音素信息和语言标识；基于所述音素标记信息和所述韵律信息生成所述目标文本的目标音素向量；将所述目标音素向量输入语音合成模型，得到所述目标文本的目标语音。本发明提供的技术方案，在一定程度上能够降低多语言混合的目标文本在语音合成过程中的计算量。

发音时长的确定方法、装置、电子设备和存储介质-202310475303.8
发明人：李健 -专利权人：暗物智能科技（广州）有限公司
申请日： 2023-04-27 - 公布日： 2023-10-27 - 主分类号： G10L13/10
摘要：本发明公开了一种发音时长的确定方法、装置、电子设备和存储介质，所述方法包括：将待转换为语音的目标文本输入韵律预测模型，得到所述目标文本的停顿信息；基于所述停顿信息将所述目标文本划分为若干个目标片段；将所述目标文本输入时长预测模型，得到所述目标文本中各个文字的预期发音时长；计算各个目标片段中文字的平均预期发音时长；在所述平均预期发音时长小于或等于第一预设发音时长的情况下，将所述目标片段中各个文字的预期发音时长按照预设扩增系数进行放大处理，得到所述目标片段中各个文字的目标发音时长。本发明提供的技术方案，在一定程度上能够提升口语化的语音合成系统在使用时的鲁棒性。

韵律模型训练方法、装置、电子设备及存储介质-202011173706.X
发明人：李若铭 -专利权人：北京百度网讯科技有限公司
申请日： 2020-10-28 - 公布日： 2023-10-20 - 主分类号： G10L13/10
摘要：本申请公开了一种韵律模型训练方法、装置、电子设备和存储介质，涉及语音技术领域、深度学习领域等人工智能领域。具体实现方案为：提取文本数据之中的标点信息及其韵律信息，并建立标点信息和韵律信息之间的映射关系；从文本数据中获取第一文本数据和第二文本数据；根据映射关系对第一文本数据进行标注以获得对应的训练数据；根据训练数据对初始韵律预训练模型进行训练以获得韵律预训练模型；根据第二文本数据对韵律预训练模型进行训练以获取韵律模型。本申请保证了韵律标注的效率，降低人工成本，保证了所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，使得模型的韵律预测结果更加准确，从而可提高语音合成的效果。

合成音频的输出方法及装置、存储介质、电子装置-202311160940.2
发明人：司马华鹏;吴海娥;姚奥;蒋达;汤毅平 -专利权人：南京硅基智能科技有限公司
申请日： 2023-09-11 - 公布日： 2023-10-17 - 主分类号： G10L13/10
摘要：本申请实施例提供了一种合成音频的输出方法及装置、存储介质、电子装置，所述方法包括：将输入文本和指定的目标身份标识输入音频输出模型，通过所述身份识别模型提取所述目标身份的身份特征序列，通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列，将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，然后经过语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。

语音合成方法、装置、设备及介质-202310983242.6
发明人：强春雨 -专利权人：北京达佳互联信息技术有限公司
申请日： 2023-08-07 - 公布日： 2023-10-10 - 主分类号： G10L13/10
摘要：本公开实施例提供一种语音合成方法、装置、设备及介质，涉及语音合成技术领域。该方法包括：获取待处理文件序列和待处理文本序列中各个文本的音素信息和语义信息，将各个文本的音素信息和语义信息进行拼接，生成各个文本的音素语义融合特征，其中，待处理文本序列包括当前文本、上一文本和下一文本，各个文本的音素语义融合特征包括当前文本的音素语义融合特征、上一文本的音素语义融合特征、下一文本的音素语义融合特征；将各个文本的音素语义融合特征输入语音合成模型中，得到当前文本的预测声学特征；根据当前文本的预测声学特征，生成当前文本的语音信息。该方法能够融合文本的语义信息以及上下文信息，有效提升语音的表现力以及自然度。

乐曲生成方法、装置、终端、存储介质及程序产品-202310933426.1
发明人：单勇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-27 - 公布日： 2023-10-03 - 主分类号： G10L13/10
摘要：本申请公开了一种乐曲生成方法、装置、终端、存储介质及程序产品，涉及多媒体处理领域。该方法包括：获取文本内容；对文本内容进行节奏识别，得到节奏划分结果；生成符合节奏划分结果的旋律数据；基于旋律数据生成伴奏数据；基于旋律数据对文本内容进行转换，得到歌声数据，融合伴奏数据和歌声数据生成目标乐曲。针对获取的文本内容进行节奏识别，得到对应的节奏特征并确定节奏划分结果后，根据节奏划分结果生成旋律数据与文本内容进行匹配，从而使得生成的旋律数据与文本内容的表达匹配，在此基础下，由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配，提高了生成的乐曲中歌词与伴奏之间的匹配程度，提高了乐曲的表达流畅度和准确度。

基于人工智能的语音合成方法、装置、计算机设备及介质-202310721752.6
发明人：张旭龙;王健宗;程宁;唐浩彬 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-09-29 - 主分类号： G10L13/10
摘要：本发明适用于医疗技术领域，尤其涉及一种语音合成方法、装置、计算机设备及介质。本发明通过音素编码器提取目标文本的音素特征，使用风格编码器提取参考音频的风格特征，使用文本预测器预测风格特征的预测文本，并在预测文本和真实文本之间的相似度小于相似度阈值时，结合风格特征和预设的音素属性适配参数对音素特征中的每个音素赋予对应的音素属性，基于音频生成器解码得到对应目标文本的目标音频，通过风格特征与目标文本合成与参考音频风格一致，且以目标文本为语音内容的目标音频，提升了语音合成系统的准确性，在医疗技术领域中高效地辅助医护人员准确地处理大量冗杂、繁琐的重复性劳动，极大地提高了医护人员的工作效率和工作质量。

基于多模态的语音合成方法、装置、设备及存储介质-202310688242.3
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-09-19 - 主分类号： G10L13/10
摘要：本发明涉及人工智能技术领域，公开了一种基于多模态的语音合成方法、装置、设备及存储介质，其方法通过对待合成文本进行预处理，获得字符序列信息、字符级图序列信息和单词级图序列信息作为输入序列信息；对字符序列信息进行编码处理，获得时域编码向量；对字符级图序列信息和单词级图序列信息进行编码处理，获得第一空间域编码向量和第二空间域编码向量；对时域编码向量和第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；对第一解码向量和第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；根据第二解码向量获得语音谱图，以生成合成语音。本发明保证了合成语音的韵律感和准确度，有效改善了金融服务水平。

一种基于Conformer和MelGAN的蒙古语语音合成方法-202310851534.4
发明人：王晓强;王锡铭;仁庆道尔吉;石宝;李雷孝 -专利权人：内蒙古工业大学
申请日： 2023-07-12 - 公布日： 2023-09-01 - 主分类号： G10L13/10
摘要：一种基于Conformer和MelGAN的蒙古语语音合成方法，获取蒙古语文本数据，提取文本特征，将文本特征编码转换为音素序列，并将所述音素序列输入至BERT预训练模型；利用BERT预训练模型训练蒙古文音素信息，学习发音中的韵律特征，并将音素信息对齐；利用基于轻量级Conformer模块的FastSpeech2声学模型，通过音素信息并行生成声学特征，即Mel频谱图；利用基于GAN的轻量级模型MelGAN作为声码器，在其中添加蒙古语语音特征，将Mel频谱图推理转换为语音波形，从而实现蒙古语语音合成，本发明可提高蒙古语语音合成的速度与合成语音的自然度。

韵律标注方法、装置和终端设备-202211529665.2
发明人：龚雪飞 -专利权人：荣耀终端有限公司
申请日： 2022-11-30 - 公布日： 2023-08-29 - 主分类号： G10L13/10
摘要：本申请实施例提供一种韵律标注方法、装置和终端设备，上述韵律标注方法中，获取输入文本之后，对上述输入文本进行分词，然后将分词获得的文本词拆分为子词，并确定上述子词的词性。进而对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文标记，根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级。最后，合并上述中文子词的韵律等级和上述英文子词的韵律等级，获得上述输入文本的韵律等级，从而可以实现对输入文本的韵律等级进行标注，进而可以提升语音合成的表现力，增加合成音频的韵律感。

语音合成方法和装置、电子设备及存储介质-202310718001.9
发明人：张旭龙;王健宗;程宁;唐浩彬 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-08-29 - 主分类号： G10L13/10
摘要：本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：获取待处理的文本数据，文本数据包括问句文本数据；对文本数据进行韵律特征提取，得到韵律嵌入特征；根据文本数据转换得到音素数据；将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成，得到目标语音数据。基于此，本申请实施例通过从文本中直接提取文本中蕴含的韵律相关信息，生成的韵律嵌入特征作为额外输入，输入至语音合成模型，以辅助语音合成模型合成更加准确的问句语音。

用于合成语音的方法和装置-202111216227.6
发明人：文成;谭兴军;雷孝宁;邹伟 -专利权人：北京房江湖科技有限公司
申请日： 2021-10-19 - 公布日： 2023-08-29 - 主分类号： G10L13/10
摘要：本发明实施例提供一种用于合成语音的方法和装置，属于人工智能领域。该方法包括：获取模板音频的情感信息和/或风格信息；将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。藉此，实现了消除合成的语音存在的差异。

一种融合韵律和个人信息的中文语音合成方法-202110667531.6
发明人：汤步洲;付沪豪;刘超 -专利权人：哈尔滨工业大学（深圳）
申请日： 2021-06-16 - 公布日： 2023-08-29 - 主分类号： G10L13/10
摘要：本发明提供了一种融合韵律和个人信息的中文语音合成方法，中文语音合成方法包括如下步骤：步骤1：将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型，得到输入文本的多层韵律信息；步骤2：将输入文本对应的拼音、声调等输入到声学模型，得到输入文本对应的语音特征谱图；步骤3：将多层韵律信息引入声学模型，将层次化韵律预测模型和声学模型进行联合，形成新的声学模型；步骤4：在新的声学模型中引入说话人信息，形成个性化语音合成模型，支持多人个性化语音合成。本发明有益效果：本发明在目前端到端合成模型的基础上，提高音频质量、速度；单人和多人的应用场景下，探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法，使得合成音频的停顿节奏感更自然，更贴近原始音频。

一种语音数据标注方法和装置-202110720290.7
发明人：李睿端;武卫东 -专利权人：北京天行汇通信息技术有限公司
申请日： 2021-06-28 - 公布日： 2023-08-18 - 主分类号： G10L13/10
摘要：本发明提供了一种语音数据标注方法和装置，涉及自然语言技术领域。本发明提供的语音数据标注方法和装置，通过获取待标注语音信息的待标注文本数据和待标注音频数据；将所述待标注文本数据转换为拼音序列数据；将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。本发明实施例从韵律标注及音素切分两方面，基于序列韵律标注及强制对齐模型的进行音素起止时间标注，实现自动标注语音数据的目的。

一种基于多任务多层级模型的文本韵律预测方法-202010158288.0
发明人：周俊明;刘杰;肖鉴津;黄博贤 -专利权人：广州深声科技有限公司
申请日： 2020-03-09 - 公布日： 2023-08-18 - 主分类号： G10L13/10
摘要：本发明公开了一种基于多任务多层级模型的文本韵律预测方法，其特征在于，包括有以下步骤：步骤401：获取预测文本；步骤402：对待预测文本针对字表，进行字符级编码；步骤403：使用多任务模型进行序列预测；步骤404：判断句子是否存在长句无L2，L3的情况；步骤405：合并L1、L2、L3的输出结果，其中边界位置重叠，按L3、L2、L1的优先级进行选择合并，返回输出结果，本发明涉及文本韵律预测技术领域。本发明，解决了韵律信息生成误差、不能相互共享信息，且训练和调参麻烦、韵律短语和语调短语的边界预测不够准确、容易出现长句子无韵律短语边界和语调短语边界的问题。

多音字消歧方法、装置、电子设备及可读存储介质-202310484396.0
发明人：李睿端;陈明;李健;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2023-04-28 - 公布日： 2023-08-15 - 主分类号： G10L13/10
摘要：本发明实施例提供了一种多音字消歧方法、装置、电子设备及存储介质，包括：获取目标多音字包括掩码信息，分词信息、词性信息和语义信息的属性信息，将属性信息输入包括：声母分类器，韵母分类器，声调分类器的Transformer编码器后，将输出结果进行拼接，生成第一拼音预测结果，根据目标多音字的拼音权重信息和第一拼音预测结果确定最终拼音预测结果，本发明实施例通过将Transformer编码器拆解为三个分类器使得在数据量不多或者数据不平衡的情况下，声韵母模型可以得到充分训练，提高多音字预测正确率，同时通过增加拼音权重信息，可以提前限制好可能的多音字读音，使得多音字消歧的预测结果更加准确。

基于人工智能的语音合成方法、装置、计算机设备及介质-202310717722.8
发明人：孙奥兰;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-08-11 - 主分类号： G10L13/10
摘要：本发明适用于语音合成技术领域，尤其涉及一种基于人工智能的语音合成方法、装置、计算机设备及介质。本发明通过特征提取模型提取目标文本的文本特征向量，将文本特征向量经重音预测器进行预测，输出重音预测向量，并与文本特征向量相加得到文本重音向量，将文本特征向量经停顿预测器进行预测，输出停顿预测向量，并与文本特征向量相加得到文本停顿向量，将文本重音向量和文本停顿向量经韵律预测器进行预测，输出文本韵律向量，将文本韵律向量与目标文本的音素序列进行匹配，得到具有韵律标签的音素序列，对具有韵律标签的音素序列进行语音转换，得到合成语音，通过进行重音、停顿以及韵律的预测，提高了合成语音的表现力、自然性和准确性。

播放语音的方法、装置及电子设备-201910020801.7
发明人：张文涛;乔慧丽 -专利权人：北京地平线机器人技术研发有限公司
申请日： 2019-01-09 - 公布日： 2023-08-08 - 主分类号： G10L13/10
摘要：公开了一种播放语音的方法，包括：确定车内目标用户的声音的声学参数和韵律参数；根据所述目标用户的声学参数和韵律参数，合成车载语音；使用合成的所述车载语音播报预设内容。播放语音的装置包括：确定模块、合成模块和播放模块。通过确定车内目标用户的声音的声学参数和韵律参数，根据所述目标用户的声学参数和韵律参数，合成车载语音，使用合成的所述车载语音播报预设内容，增加了车载语音的种类，提高了车载语音的多样性和选择性，可以满足众多用户的需求。

语音合成方法、装置、存储介质和电子设备-202010167710.9
发明人：殷翔;顾宇 -专利权人：北京字节跳动网络技术有限公司
申请日： 2020-03-11 - 公布日： 2023-08-04 - 主分类号： G10L13/10
摘要：本公开涉及一种语音合成方法、装置、存储介质和电子设备，所述方法包括：获取待合成文本对应的语音特征信息，所述语音特征信息包括韵律边界信息，所述韵律边界信息用于将所述待合成文本划分成多个韵律词；确定所述待合成文本的文本特征对应的目标韵律模式；根据所述目标韵律模式对应的韵律特征对每一所述韵律词进行语音合成获得所述待合成文本对应的声学特征；根据所述声学特征，获得与所述待合成文本对应的音频信息。因此，在进行语音合成时，充分考虑了用户正常的朗读韵律，从而可以使得语音合成后获得音频信息符合人类的朗读韵律，避免现有技术中机械朗读给用户造成的不适。同时，使得语音合成的音频数据与待合成文本的文本特征相匹配。

基于人工智能的语音合成方法、装置、计算机设备及介质-202310612592.1
发明人：张旭龙;王健宗;程宁;程安琪 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-26 - 公布日： 2023-08-01 - 主分类号： G10L13/10
摘要：本发明适用于医疗技术领域，尤其涉及一种基于人工智能的语音合成方法、装置、计算机设备及介质。本发明通过文本编码器提取目标语音文本的语音文本特征，通过上下文编码器提取上下文文本的上下文注意力特征，通过韵律编码器提取参考音频的韵律特征，融合得到第一融合特征，提取了在上下文文本影响下的韵律信息；通过韵律因素预测器提取第一融合特征的预测韵律因素特征，融合第一融合特征和预测韵律因素特征得到第二融合特征，根据第二融合特征得到目标合成语音，结合声音的持续时间、音高和能量提高了韵律信息的丰富性和准确性，提高了目标合成语音的准确性，在医疗技术领域中高效地辅助医护人员处理重复性劳动，提高了医护人员的工作效率和质量。

文本转语音模型训练方法、文本转语音方法及相关设备-202310483492.3
发明人：吉祥 -专利权人：深圳市即构科技有限公司;抖动科技（深圳）有限公司
申请日： 2023-04-28 - 公布日： 2023-07-25 - 主分类号： G10L13/10
摘要：本申请涉及人工智能领域，提供一种文本转语音模型训练方法、文本转语音方法及相关设备，所述文本转语音模型训练方法包括：获取训练文本及所述训练文本对应的文本音频；对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；根据所述文本音频，得到所述训练文本的实际发音长度特征；将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；根据所述第一损失函数，调整文本转语音模型的参数。利用上述方法能够提高文本转语音模型的进度，使得训练完成的文本转语音模型具有更准确的预测发音长度的能力，从而提高了文本转语音的准确率。

一种文本转语音的方法、装置及计算机设备-202010622832.2
发明人：马达标 -专利权人：度小满科技（北京）有限公司
申请日： 2020-06-30 - 公布日： 2023-07-25 - 主分类号： G10L13/10
摘要：本发明提供了一种文本转语音的方法、装置及计算机设备，对待转换文本语句中的字符进行分组，得到相应字符分组规则对应的字符分组结果，确定各个字符在其所属至少一个字符分组结果中的合成韵律矢量，将每个字符对应的至少一个合成韵律矢量进行拼接，得到每个字符对应的目标韵律矢量；对目标韵律矢量进行分析，得到语音信息。合成韵律矢量为字符在其所属字符分组结果中正向顺序矢量及逆向顺序矢量的加权和，正向顺序矢量以及逆向顺序矢量的加权和能够更准确体现字符在文本中的位置关系，得到的字符的合成韵律矢量能够更客观的体现字符的韵律特征，增强所转化成的语音的韵律感，提高文本转换成的语音的准确度。

文本到语音合成方法、装置、设备和存储介质-202310405824.6
发明人：张旭龙;王健宗;朱可欣 -专利权人：平安科技（深圳）有限公司
申请日： 2023-04-07 - 公布日： 2023-07-11 - 主分类号： G10L13/10
摘要：本发明实施例提供文本到语音合成方法、装置、设备和存储介质，涉及人工智能技术领域。该方法包括：获取输入文本对应的音素序列和语音对象标识，基于预设掩蔽率和预设掩蔽步长掩蔽音素对齐序列得到候选音素序列，基于候选音素序列对音素对齐序列进行无监督映射，将音素对齐序列转化为音素无监督序列，对音素无监督序列进行语音合成，得到音素序列对应的语音内容。本实施例通过无监督学习的方式，对输入文本进行语音合成，提高合成语音的自然性和可解释性，扩展语音合成技术的应用场景。

韵律预测方法、训练方法、装置、电子设备和介质-202011340106.8
发明人：聂志朋;高占杰;陈昌滨 -专利权人：北京百度网讯科技有限公司
申请日： 2020-11-25 - 公布日： 2023-07-07 - 主分类号： G10L13/10
摘要：本申请公开了一种韵律预测方法、训练方法、装置、电子设备和介质，涉及语音合成、自然语言处理NLP、深度学习领域。实现方案为：获取包含第一语言的文本片段和第二语言的文本片段的混合文本；分别对第一语言的文本片段和第二语言的文本片段中各字符编码，得到各第一字符向量及各第二字对符向量；根据各字符在混合文本中的语序对第一字符向量和第二字符向量排序，得到向量序列；将向量序列输入经过训练的韵律预测模型，得到第一字符向量和第二字符向量切换位置处的过渡韵律；将过渡韵律拼接在第一语言的文本片段对应的韵律和第二语言的文本片段对应的韵律之间，以得到混合文本的韵律。由此，可以改善混合文本语音合成的韵律效果。

一种基于对比文本-音频对的文本韵律生成方法和系统-202310361791.X
发明人：黄俊杰;姜伟昊;王志辉;李烈锋;孙清;陈梓铭 -专利权人：杭州东上智能科技有限公司
申请日： 2023-04-07 - 公布日： 2023-07-07 - 主分类号： G10L13/10
摘要：本发明公开了一种基于对比文本‑音频对的文本韵律生成方法和系统，属于语音合成领域。获取原始语音音频和对应的文本组合作为训练集，利用韵律编码器编码选定词符韵律特征，利用文本编码器编码选定词符文本特征；根据选定词符韵律特征和文本特征计算余弦相似度矩阵，计算对称交叉熵损失函数，从单词和音素两个尺度进行对比训练。针对给定文本，利用训练后的文本编码器对给定文本的音素序列和字节对编码序列进行编码，获取音素级别文本特征编码和/或单词级别文本特征编码，生成文本对应的韵律。本发明通过对比文本‑音频对预训练，可以充分地从文本上下文中学习到韵律相关的文本表征信息，忽略语义信息，提高下游任务合成音频的质量。

一种篇章级别多尺度文本韵律分析方法、装置和设备-202310347958.7
发明人：魏宪豪;贾珈;吴志勇;李翔 -专利权人：清华大学
申请日： 2023-04-03 - 公布日： 2023-07-04 - 主分类号： G10L13/10
摘要：本发明中提供了一种篇章级别多尺度文本韵律分析方法、装置和设备，所述方法包括：将待分析文本拆分为多个语句；利用话语级别多尺度文本韵律分析模型对多个语句进行处理，得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征；将多个语句的句子级别话语特征输入到长短期记忆网络进行处理，得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信息的句子级别话语特征；将具有上下文信息的句子级别话语特征映射为具有上下文信息的音素级别话语特征后和局部韵律嵌入序列特征融合，得到具有上下文信息的局部韵律嵌入序列特征。本发明中能够实现更精细、更连贯的韵律情感控制，实现通过纯文本自动得到符合文本特征韵律情感表达的语音。

语音合成方法和装置、存储介质、电子设备-202310189613.3
发明人：岳杨皓;宋伟;张雅洁;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-27 - 公布日： 2023-06-23 - 主分类号： G10L13/10
摘要：本公开提供一种语音合成方法和装置、存储介质、电子设备；涉及信息处理技术领域。该方法包括：获取待合成语句的符号序列，利用预先训练的声学预测模型，对所述符号序列进行声学特征预测，得到待合成语句对应的声学特征；声学预测模型包括韵律预测模型，韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征，以在语音合成阶段增强所述待合成语句的韵律特征；对声学特征进行特征转换和合成，得到待合成语句对应的语音。本公开可以解决相关技术中语音合成系统无法满足特定业务场景对韵律自然度和表现力的需求及语音合成效果不佳的问题。

语音合成前端处理方法及语音合成方法-202211635363.3
发明人：储银雪;高丽;方昕 -专利权人：西安讯飞超脑信息科技有限公司
申请日： 2022-12-19 - 公布日： 2023-06-23 - 主分类号： G10L13/10
摘要：本发明涉及自然语言处理技术领域，提供一种语音合成前端处理方法及语音合成方法，该语音合成前端处理方法获取目标亚非语系语种的待处理文本；将待处理文本输入至前端处理模型，得到待处理文本中各字符对应的目标元音标符以及待处理文本中的目标韵律边界。该方法引入待处理文本中各字符对应的目标元音标符的恢复，可以提升后续合成的语音的读音准确性，引入对待处理文本中目标韵律边界的预测，可以提升后续合成的语音的韵律边界表现，进而提高语音合成的可懂度和自然度。该方法采用多任务训练的方式得到前端处理模型，使该前端处理模型可以同时得到待处理文本中各字符对应的目标元音标符以及待处理文本中的目标韵律边界，可以提高前端处理效率。

信息处理方法及装置-202110336220.1
发明人：吴雨璇;陈昌儒;杨惠;周鼎皓;梁光 -专利权人：北京大米科技有限公司
申请日： 2021-03-29 - 公布日： 2023-06-13 - 主分类号： G10L13/10
摘要：本发明实施例公开了一种信息处理方法及装置，通过确定音频信息和对应的文本信息，得到音频信息对应的多个音频特征向量和文本信息对应的多个文本特征向量。将各音频特征向量和各文本特征向量输入注意力机制层得到多个权重向量序列，以根据各权重向量序列、音频特征向量和文本特征向量确定多个对应于文本信息的参考韵律等级标记，输出具有多个参考韵律等级标记的文本信息。本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量，以进一步自动生成文本信息对应的韵律等级标记，提高了文本信息韵律等级标记的效率和标记结果的准确程度。

语音合成方法、装置、电子设备和可读存储介质-202011611429.6
发明人：梁光;舒景辰;吴雨璇;杨惠;周鼎皓 -专利权人：北京大米科技有限公司
申请日： 2020-12-30 - 公布日： 2023-06-13 - 主分类号： G10L13/10
摘要：本发明实施例提供了一种语音合成方法、装置、电子设备和可读存储介质，涉及计算机技术领域，通过本发明实施例，可以基于预先训练的韵律分类模型确定目标文本中每个组成成分的韵律标签，即目标文本中每个组成成分在发音之后的停顿时长，在语音合成的过程中，该韵律标签可以使得目标语音可以在播放过程中具有不同的停顿，进而使得目标语音更加贴近人类的说话方式，与人声具有较高的相似度。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法、装置、存储介质和电子设备有效

专利文献下载