“G10L13/10”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果174个，建议您升级VIP下载更多相关专利

[发明专利]语音合成方法、模型训练方法、装置、设备和存储介质-CN202310475285.3在审
发明人：詹杰;李健 -专利权人：暗物智能科技（广州）有限公司
申请日： 2023-04-27 - 公布日： 2023-10-27 - 主分类号： G10L13/10 文献下载
摘要：本发明公开了一种语音合成方法、模型训练方法、装置、设备和存储介质，所述方法包括：获取包括多种语言的目标文本和所述目标文本的韵律信息；对所述目标文本中不同语言的文字进行音素标记，得到所述目标文本中不同语言的文字的音素标记信息；所述音素标记信息包括不同语言文字的音素信息和语言标识；基于所述音素标记信息和所述韵律信息生成所述目标文本的目标音素向量；将所述目标音素向量输入语音合成模型，得到所述目标文本的目标语音。本发明提供的技术方案，在一定程度上能够降低多语言混合的目标文本在语音合成过程中的计算量。
语音合成方法模型训练装置设备存储介质

[发明专利]发音时长的确定方法、装置、电子设备和存储介质-CN202310475303.8在审
发明人：李健 -专利权人：暗物智能科技（广州）有限公司
申请日： 2023-04-27 - 公布日： 2023-10-27 - 主分类号： G10L13/10 文献下载
摘要：本发明公开了一种发音时长的确定方法、装置、电子设备和存储介质，所述方法包括：将待转换为语音的目标文本输入韵律预测模型，得到所述目标文本的停顿信息；基于所述停顿信息将所述目标文本划分为若干个目标片段；将所述目标文本输入时长预测模型，得到所述目标文本中各个文字的预期发音时长；计算各个目标片段中文字的平均预期发音时长；在所述平均预期发音时长小于或等于第一预设发音时长的情况下，将所述目标片段中各个文字的预期发音时长按照预设扩增系数进行放大处理，得到所述目标片段中各个文字的目标发音时长。本发明提供的技术方案，在一定程度上能够提升口语化的语音合成系统在使用时的鲁棒性。
发音确定方法装置电子设备存储介质

[发明专利]韵律模型训练方法、装置、电子设备及存储介质-CN202011173706.X有效
发明人：李若铭 -专利权人：北京百度网讯科技有限公司
申请日： 2020-10-28 - 公布日： 2023-10-20 - 主分类号： G10L13/10 文献下载
摘要：本申请公开了一种韵律模型训练方法、装置、电子设备和存储介质，涉及语音技术领域、深度学习领域等人工智能领域。具体实现方案为：提取文本数据之中的标点信息及其韵律信息，并建立标点信息和韵律信息之间的映射关系；从文本数据中获取第一文本数据和第二文本数据；根据映射关系对第一文本数据进行标注以获得对应的训练数据；根据训练数据对初始韵律预训练模型进行训练以获得韵律预训练模型；根据第二文本数据对韵律预训练模型进行训练以获取韵律模型。本申请保证了韵律标注的效率，降低人工成本，保证了所标注的韵律特征信息更加准确，通过该韵律特征信息的标注数据进行模型训练，使得模型的韵律预测结果更加准确，从而可提高语音合成的效果。
韵律模型训练方法装置电子设备存储介质

[发明专利]合成音频的输出方法及装置、存储介质、电子装置-CN202311160940.2在审
发明人：司马华鹏;吴海娥;姚奥;蒋达;汤毅平 -专利权人：南京硅基智能科技有限公司
申请日： 2023-09-11 - 公布日： 2023-10-17 - 主分类号： G10L13/10 文献下载
摘要：本申请实施例提供了一种合成音频的输出方法及装置、存储介质、电子装置，所述方法包括：将输入文本和指定的目标身份标识输入音频输出模型，通过所述身份识别模型提取所述目标身份的身份特征序列，通过所述语音合成模型的编码层提取所述输入文本对应的音素特征序列，将所述目标身份的身份特征序列和所述输入文本对应的音素特征序列叠加并输入所述语音合成模型的变量适配器，通过所述变量适配器对所述音素特征序列进行时长预测和对齐、能量预测以及音高预测后，然后经过语音合成模型的解码层并输出与所述输入文本对应的目标梅尔谱特征，将所述目标梅尔谱特征输入声码器，通过所述声码器输出符合所述目标身份说话风格的合成音频。
合成音频输出方法装置存储介质电子

[发明专利]语音合成方法、装置、设备及介质-CN202310983242.6在审
发明人：强春雨 -专利权人：北京达佳互联信息技术有限公司
申请日： 2023-08-07 - 公布日： 2023-10-10 - 主分类号： G10L13/10 文献下载
摘要：本公开实施例提供一种语音合成方法、装置、设备及介质，涉及语音合成技术领域。该方法包括：获取待处理文件序列和待处理文本序列中各个文本的音素信息和语义信息，将各个文本的音素信息和语义信息进行拼接，生成各个文本的音素语义融合特征，其中，待处理文本序列包括当前文本、上一文本和下一文本，各个文本的音素语义融合特征包括当前文本的音素语义融合特征、上一文本的音素语义融合特征、下一文本的音素语义融合特征；将各个文本的音素语义融合特征输入语音合成模型中，得到当前文本的预测声学特征；根据当前文本的预测声学特征，生成当前文本的语音信息。该方法能够融合文本的语义信息以及上下文信息，有效提升语音的表现力以及自然度。
语音合成方法装置设备介质

[发明专利]乐曲生成方法、装置、终端、存储介质及程序产品-CN202310933426.1有效
发明人：单勇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-27 - 公布日： 2023-10-03 - 主分类号： G10L13/10 文献下载
摘要：本申请公开了一种乐曲生成方法、装置、终端、存储介质及程序产品，涉及多媒体处理领域。该方法包括：获取文本内容；对文本内容进行节奏识别，得到节奏划分结果；生成符合节奏划分结果的旋律数据；基于旋律数据生成伴奏数据；基于旋律数据对文本内容进行转换，得到歌声数据，融合伴奏数据和歌声数据生成目标乐曲。针对获取的文本内容进行节奏识别，得到对应的节奏特征并确定节奏划分结果后，根据节奏划分结果生成旋律数据与文本内容进行匹配，从而使得生成的旋律数据与文本内容的表达匹配，在此基础下，由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配，提高了生成的乐曲中歌词与伴奏之间的匹配程度，提高了乐曲的表达流畅度和准确度。
乐曲生成方法装置终端存储介质程序产品

[发明专利]基于人工智能的语音合成方法、装置、计算机设备及介质-CN202310721752.6在审
发明人：张旭龙;王健宗;程宁;唐浩彬 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-09-29 - 主分类号： G10L13/10 文献下载
摘要：本发明适用于医疗技术领域，尤其涉及一种语音合成方法、装置、计算机设备及介质。本发明通过音素编码器提取目标文本的音素特征，使用风格编码器提取参考音频的风格特征，使用文本预测器预测风格特征的预测文本，并在预测文本和真实文本之间的相似度小于相似度阈值时，结合风格特征和预设的音素属性适配参数对音素特征中的每个音素赋予对应的音素属性，基于音频生成器解码得到对应目标文本的目标音频，通过风格特征与目标文本合成与参考音频风格一致，且以目标文本为语音内容的目标音频，提升了语音合成系统的准确性，在医疗技术领域中高效地辅助医护人员准确地处理大量冗杂、繁琐的重复性劳动，极大地提高了医护人员的工作效率和工作质量。
基于人工智能语音合成方法装置计算机设备介质

[发明专利]基于多模态的语音合成方法、装置、设备及存储介质-CN202310688242.3在审
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-09-19 - 主分类号： G10L13/10 文献下载
摘要：本发明涉及人工智能技术领域，公开了一种基于多模态的语音合成方法、装置、设备及存储介质，其方法通过对待合成文本进行预处理，获得字符序列信息、字符级图序列信息和单词级图序列信息作为输入序列信息；对字符序列信息进行编码处理，获得时域编码向量；对字符级图序列信息和单词级图序列信息进行编码处理，获得第一空间域编码向量和第二空间域编码向量；对时域编码向量和第一空间域编码向量进行第一跨模态注意力计算，获得第一解码向量；对第一解码向量和第二空间域编码向量进行第二跨模态注意力计算，获得第二解码向量；根据第二解码向量获得语音谱图，以生成合成语音。本发明保证了合成语音的韵律感和准确度，有效改善了金融服务水平。
基于多模态语音合成方法装置设备存储介质

[发明专利]声音合成方法、声音合成装置及记录介质-CN201880077081.1有效
发明人：大道龙之介 -专利权人：雅马哈株式会社
申请日： 2018-11-28 - 公布日： 2023-09-12 - 主分类号： G10L13/10 文献下载
摘要：声音合成装置具有：中间训练好的模型，其生成与包含对音位进行指定的第1控制数据的输入相对应的第2控制数据；编辑处理部，其与来自利用者的第1指示相应地对第2控制数据进行变更；输出训练好的模型，其与包含第1控制数据和变更后的第2控制数据在内的输入相应地，生成与合成声音的频率特性相关的合成数据；以及合成处理部，其生成与合成数据相对应的声音信号。
声音合成方法装置记录介质

[发明专利]一种基于Conformer和MelGAN的蒙古语语音合成方法-CN202310851534.4在审
发明人：王晓强;王锡铭;仁庆道尔吉;石宝;李雷孝 -专利权人：内蒙古工业大学
申请日： 2023-07-12 - 公布日： 2023-09-01 - 主分类号： G10L13/10 文献下载
摘要：一种基于Conformer和MelGAN的蒙古语语音合成方法，获取蒙古语文本数据，提取文本特征，将文本特征编码转换为音素序列，并将所述音素序列输入至BERT预训练模型；利用BERT预训练模型训练蒙古文音素信息，学习发音中的韵律特征，并将音素信息对齐；利用基于轻量级Conformer模块的FastSpeech2声学模型，通过音素信息并行生成声学特征，即Mel频谱图；利用基于GAN的轻量级模型MelGAN作为声码器，在其中添加蒙古语语音特征，将Mel频谱图推理转换为语音波形，从而实现蒙古语语音合成，本发明可提高蒙古语语音合成的速度与合成语音的自然度。
一种基于 conformer melgan 蒙古语语音合成方法

[发明专利]韵律标注方法、装置和终端设备-CN202211529665.2在审
发明人：龚雪飞 -专利权人：荣耀终端有限公司
申请日： 2022-11-30 - 公布日： 2023-08-29 - 主分类号： G10L13/10 文献下载
摘要：本申请实施例提供一种韵律标注方法、装置和终端设备，上述韵律标注方法中，获取输入文本之后，对上述输入文本进行分词，然后将分词获得的文本词拆分为子词，并确定上述子词的词性。进而对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文标记，根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级。最后，合并上述中文子词的韵律等级和上述英文子词的韵律等级，获得上述输入文本的韵律等级，从而可以实现对输入文本的韵律等级进行标注，进而可以提升语音合成的表现力，增加合成音频的韵律感。
韵律标注方法装置终端设备

[发明专利]语音合成方法和装置、电子设备及存储介质-CN202310718001.9在审
发明人：张旭龙;王健宗;程宁;唐浩彬 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-08-29 - 主分类号： G10L13/10 文献下载
摘要：本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：获取待处理的文本数据，文本数据包括问句文本数据；对文本数据进行韵律特征提取，得到韵律嵌入特征；根据文本数据转换得到音素数据；将音素数据和韵律嵌入特征输入至预先训练好的语音合成模型进行语音合成，得到目标语音数据。基于此，本申请实施例通过从文本中直接提取文本中蕴含的韵律相关信息，生成的韵律嵌入特征作为额外输入，输入至语音合成模型，以辅助语音合成模型合成更加准确的问句语音。
语音合成方法装置电子设备存储介质

[发明专利]用于合成语音的方法和装置-CN202111216227.6有效
发明人：文成;谭兴军;雷孝宁;邹伟 -专利权人：北京房江湖科技有限公司
申请日： 2021-10-19 - 公布日： 2023-08-29 - 主分类号： G10L13/10 文献下载
摘要：本发明实施例提供一种用于合成语音的方法和装置，属于人工智能领域。该方法包括：获取模板音频的情感信息和/或风格信息；将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。藉此，实现了消除合成的语音存在的差异。
用于合成语音方法装置

[发明专利]一种融合韵律和个人信息的中文语音合成方法-CN202110667531.6有效
发明人：汤步洲;付沪豪;刘超 -专利权人：哈尔滨工业大学（深圳）
申请日： 2021-06-16 - 公布日： 2023-08-29 - 主分类号： G10L13/10 文献下载
摘要：本发明提供了一种融合韵律和个人信息的中文语音合成方法，中文语音合成方法包括如下步骤：步骤1：将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型，得到输入文本的多层韵律信息；步骤2：将输入文本对应的拼音、声调等输入到声学模型，得到输入文本对应的语音特征谱图；步骤3：将多层韵律信息引入声学模型，将层次化韵律预测模型和声学模型进行联合，形成新的声学模型；步骤4：在新的声学模型中引入说话人信息，形成个性化语音合成模型，支持多人个性化语音合成。本发明有益效果：本发明在目前端到端合成模型的基础上，提高音频质量、速度；单人和多人的应用场景下，探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法，使得合成音频的停顿节奏感更自然，更贴近原始音频。
一种融合韵律个人信息中文语音合成方法

[发明专利]一种语音数据标注方法和装置-CN202110720290.7有效
发明人：李睿端;武卫东 -专利权人：北京天行汇通信息技术有限公司
申请日： 2021-06-28 - 公布日： 2023-08-18 - 主分类号： G10L13/10 文献下载
摘要：本发明提供了一种语音数据标注方法和装置，涉及自然语言技术领域。本发明提供的语音数据标注方法和装置，通过获取待标注语音信息的待标注文本数据和待标注音频数据；将所述待标注文本数据转换为拼音序列数据；将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。本发明实施例从韵律标注及音素切分两方面，基于序列韵律标注及强制对齐模型的进行音素起止时间标注，实现自动标注语音数据的目的。
一种语音数据标注方法装置

1
2
3
4
5
6
7
8
9
10
11
12
下一页»
尾页
共 174 条