“缪陈峰”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果14个，建议您升级VIP下载更多相关专利

[发明专利]语音合成方法、装置、电子设备及存储介质-CN202310654875.2在审
发明人：郭璇;缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-02 - 公布日： 2023-10-03 - 主分类号： G10L13/02 文献下载
摘要：本申请涉及金融科技领域，具体涉及一种语音合成方法、装置、电子设备及存储介质，将目标特征数据和第一频谱编码数据输入至语音合成模型中，输出目标对象的目标梅尔谱；将目标梅尔谱输入至预先训练好的声码器模型中，输出第二语音数据，其中，声码器模型包括多个维度不同的Flow模块，每个Flow模块包括卷积神经网络层，多个Flow模块的维度沿数据处理方向依次减小；通过上述方式，扩大了声码器模型中各Flow模块的维度，提高了声码器模型的学习能力，提高了目标梅尔谱转换所得语音数据的质量，在利用输出的第二语音数据与用户进行业务沟通时，能够提高用户体验，提高了金融行业中与用户之间的沟通效率。
语音合成方法装置电子设备存储介质

[发明专利]基于对抗学习的说话人语音转换方法及相关设备-CN202011632876.X有效
发明人：梁爽;缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2020-12-31 - 公布日： 2023-09-22 - 主分类号： G10L21/013 文献下载
摘要：本发明涉及数据处理技术领域，提供一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质，包括：预处理训练数据，得到MFCC特征与基频特征；输入MFCC特征与基频特征至初始说话人语音转换模型进行训练；调用对抗算法训练内容编码器与内容判别器，直至达到纳什均衡状态；获取域判别器的总损失函数，并检测总损失函数是否收敛；当检测结果为总损失函数收敛时，确定目标说话人语音转换模型；获取待转换音频与目标音频，并调用内容编码器处理待转换音频，得到目标内容编码，调用属性编码器处理目标音频，得到目标属性编码；输入目标内容编码与目标属性编码至生成器，得到转换后的说话人语音。本发明能够提高说话人语音转换的效率与质量。
基于对抗学习说话人语转换方法相关设备

[发明专利]语音转换方法、装置、电子设备及存储介质-CN202310295364.6在审
发明人：朱清影;缪陈峰;陈婷;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-03-23 - 公布日： 2023-06-23 - 主分类号： G10L25/24 文献下载
摘要：本申请的语音转换方法、装置、电子设备及存储介质中，根据文本序列以及第一说话人的说话人特征获取融合特征向量；根据第二说话人的源梅尔谱获取源频谱特征向量；将融合特征向量和源频谱特征向量输入至预先训练好的语音转换声学模型中，输出第一说话人的目标梅尔谱；根据目标梅尔谱获取目标语音数据；通过上述方式，实现了基于非平行语料的语音转换，无需收集平行语料，提高了语音转换的效率；并且，输入至语音转换声学模型的源频谱特征向量是根据源梅尔谱获取的，语音转换声学模型无需进行对齐预测，语音转换声学模型输出的目标梅尔谱与源梅尔谱严格时间对齐，提高了语音转换的效率；并且，实现了基于非平行语料生成平行语料，实现了数据增强。
语音转换方法装置电子设备存储介质

[发明专利]音频合成方法、装置、电子设备及计算机可读存储介质-CN202310319978.3在审
发明人： 缪陈峰;陈闽川;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-03-23 - 公布日： 2023-06-23 - 主分类号： G10L13/02 文献下载
摘要：本发明提供了一种音频合成方法、装置、电子设备及计算机可读存储介质。本发明提供的音频合成方法，包括：获取待预测频谱的线性谱数据；将所述待预测频谱的线性谱数据输入至预先训练好的神经网络模型中，输出所述待预测频谱对应的相位谱数据，其中，所述神经网络模型是根据频域内的样本线性谱数据和频域内的样本相位谱数据训练得到的，所述频域内的样本线性谱数据和所述频域内的样本相位谱数据是根据同一真实音频数据经过短时傅里叶变换得到的；根据所述待预测频谱的线性谱数据和所述相位谱数据获取音频数据。本发明的音频合成方法，可以极大降低音频合成的计算量。
音频合成方法装置电子设备计算机可读存储介质

[发明专利]歌声转换方法、音色转换模型的训练方法及相关设备-CN202310320472.4在审
发明人：朱清影;缪陈峰;王少军;马骏;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-03-23 - 公布日： 2023-06-23 - 主分类号： G10L13/02 文献下载
摘要：本申请涉及语音合成技术领域，还涉及人工智能技术领域，本申请实施例提供的歌声转换方法，包括：获取原始音频数据的音素序列及音素的时间信息；获取音乐特征数据；获取融合特征数据；将融合特征数据和原频谱特征数据输入至语音合成模型中，输出目标梅尔谱；获取目标音频数据；通过上述方式，实现了基于非平行语料的歌声转换，无需收集平行语料，提高了歌声转换的效率和效果；并且，输入至语音合成模型的原频谱特征数据是根据原梅尔谱获取的，语音合成模型无需进行对齐预测，语音合成模型输出的目标梅尔谱与原梅尔谱是严格时间对齐的，提高了歌声转换的效率和效果；并且，转换所得目标音频数据与原始音频数据是平行语料，实现了数据增强。
歌声转换方法音色模型训练相关设备

[发明专利]一种TTS音频异常检测方法、装置、计算机设备及存储介质-CN202310151771.X在审
发明人：黄韬;缪陈峰;陈婷;陈闽川;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2023-02-10 - 公布日： 2023-05-26 - 主分类号： G10L13/027 文献下载
摘要：本发明公开了一种TTS音频异常检测方法、装置、计算机设备及存储介质。所述方法包括：获取待检测的TTS音频文件以及合成所述TTS音频文件的原始文本文件，并将所述原始文本文件转换为对应的音素文件；采用音素长度预测算法预测所述音素文件的音频时长；计算所述音素文件的音频时长与TTS音频文件的实际时长之间的差值，并判断所述差值是否超过预设的长度阈值，如果超过所述长度阈值，则判定所述待检测的TTS音频文件为异常音频文件；如果不超过所述长度阈值，利用语音识别算法对所述TTS音频文件进行语速、音量检测。本发明可以提前筛选出存在漏字、多字或长噪声等因素的异常音频，减少进入ASR检测和人工测听等环节的音频数量，从而降低检测成本。
一种 tts 音频异常检测方法装置计算机设备存储介质

[发明专利]语音合成模型的训练方法、装置、设备及存储介质-CN202310152562.7在审
发明人： 缪陈峰;陈闽川;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2023-02-16 - 公布日： 2023-05-12 - 主分类号： G10L13/02 文献下载
摘要：本发明涉及人工智能技术领域，公开了一种语音合成模型的训练方法、装置、设备及存储介质。该方法包括：构建语音合成模型，语音合成模型的网络结构包括第一可逆层以及至少一个第二可逆层，第一可逆层包括可逆卷积模块和仿射耦合模块，第二可逆层包括仿射耦合模块；获取音频数据，根据语音合成模型的网络结构对音频数据进行分解处理，得到与各层对应的子音频数据；将各子音频数据依次输入语音合成模型中，输出各层与子音频数据对应的预测值；根据各层的预测值计算损失函数，利用损失函数对语音合成模型进行训练，直至损失函数收敛，得到训练好的语音合成模型。通过上述方式，本发明能够提高训练效率和训练效果。
语音合成模型训练方法装置设备存储介质

[发明专利]语音合成方法、训练方法、装置、设备及介质-CN202211144767.2在审
发明人： 缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2022-09-20 - 公布日： 2023-01-03 - 主分类号： G10L13/08 文献下载
摘要：本申请实施例提供的语音合成方法、训练方法、装置、设备及介质，包括：获取待预测的文本序列的文本特征数据；将文本特征数据输入至对齐位置预测模型中，输出对齐位置预测数据；将对齐位置预测数据输入至重构映射模型中，输出频谱特征预测数据；通过上述方式，利用训练好的对齐位置预测模型可以直接根据文本特征数据获取对齐位置预测数据，能够解决现有技术中由于文本特征及频谱特征不易对齐导致的语音合成效果差的技术问题，有利于提高语音合成的效果，得到对齐位置预测数据后利用训练好的重构映射模型可以直接根据对齐位置预测数据获取频谱特征预测数据，整个语音合成阶段无需依赖频谱数据，有利于提高语音合成的速度。
语音合成方法训练装置设备介质

[发明专利]语音转换方法、训练方法、装置、设备及介质-CN202211144982.2在审
发明人： 缪陈峰;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2022-09-20 - 公布日： 2023-01-03 - 主分类号： G10L13/033 文献下载
摘要：本申请实施例提供的语音转换方法、训练方法、装置、设备及介质，根据源说话人的源语音数据获取所述源说话人的源线性谱；将所述源线性谱输入至预先训练好的语音编码模型中，输出对应的频谱特征预测数据；将所述频谱特征预测数据以及目标说话人的目标说话人特征数据输入至语音重建模型中，输出对应的目标语音数据；通过上述方式，将源语音数据的内容信息与说话人特征进行解耦，在语音编码模型的训练阶段以及语音转换阶段，语音编码模型的输入和输出分别仅包含内容信息，通过语音重建模型对内容信息和说话人特征一起重建语音数据，有利于提高语音编码模型的训练速度和训练效果，进而提高了语音转换的效果。
语音转换方法训练装置设备介质

[发明专利]语音合成方法、系统、设备及存储介质-CN202211010812.5在审
发明人：陈婷;缪陈峰;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2022-08-23 - 公布日： 2022-11-25 - 主分类号： G10L13/08 文献下载
摘要：本发明提出一种语音合成方法、系统、设备及存储介质，该方法包括：获取待合成文本的声学特征；将待合成文本的声学特征输入训练后的目标声码器中，获取目标语音，目标声码器模型为神经网络模型，目标声码器模型通过利用改进的Transformer模型替换掉HiFi‑GAN模型中的生成器得到，改进的Transformer模型通过滑动窗口或扩大滑动窗口对Transformer模型中的多头自注意力机制进行改进后得到。本发明通过滑动窗口或扩大滑动窗口对Transformer模型中的多头自注意力机制进行改进，既能降低模型的复杂度，又能提高模型性能，本语音合成方法计算复杂度更低，占用空间更小，并且计算速度更快。
语音合成方法系统设备存储介质

[发明专利]一种合成语音的方法、装置、终端及存储介质-CN202110641868.X在审
发明人：梁爽;缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2021-06-09 - 公布日： 2021-09-07 - 主分类号： G10L13/08 文献下载
摘要：本申请适用于语音合成技术领域，提供了一种合成语音的方法、装置、终端及存储介质。该方法包括：获取文本信息；将文本信息输入到已训练的频谱生成模型中进行处理，得到文本信息对应的梅尔谱图，频谱生成模型为无需蒸馏的非自回归式的模型，频谱生成模型包括编码器、长度预测网络以及解码器，该解码器的训练过程和实际使用过程是逆运算的过程；基于该梅尔谱图，生成该文本信息对应的语音信息。上述方案中，由于该生成模型为无需蒸馏的非自回归式的模型，提升了该频谱生成模型生成梅尔谱图的速率，进而提升了语音合成的速度。且基于该频谱生成模型可准确、快速地提取文本信息对应的梅尔谱图，进而使得基于该梅尔谱图生成的语音质量高。
一种合成语音方法装置终端存储介质

[发明专利]梅尔频谱的预测方法、装置、设备及存储介质-CN202110605309.3在审
发明人：刘正晨;缪陈峰;朱清影;陈闽川;马骏;王少军;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2021-05-31 - 公布日： 2021-08-06 - 主分类号： G10L13/08 文献下载
摘要：本申请涉及人工智能技术领域，揭示了一种梅尔频谱的预测方法、装置、设备及存储介质，其中方法包括：将待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过目标声学模块的对齐位置预测器，对目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过目标声学模块的对齐图重建器，根据目标文本编码特征数据和目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过目标声学模块的解码器，对目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。实现采用输入‑输出特征对齐策略将时长建模隐式地集成在目标声学模块中，无需额外的时长模型。本申请还涉及区块链技术。
频谱预测方法装置设备存储介质

[发明专利]基于人工智能的语音合成方法、装置、计算机设备和介质-CN202011638582.8在审
发明人： 缪陈峰;梁爽;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2020-12-31 - 公布日： 2021-05-25 - 主分类号： G10L13/08 文献下载
摘要：本申请涉及大数据技术领域，特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和存储介质。所述方法包括：接收语音合成请求，语音合成请求携带有待合成语音的文本数据；对文本数据进行编码处理，得到对应文本数据的文本特征；对文本特征进行预测处理，得到对应文本特征的对齐信息；基于对齐信息，构建对应文本特征的对齐矩阵；通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。采用本方法能够提升语音合成准确性。本申请还涉及区块链技术领域，语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音等均可以上传至区块链。
基于人工智能语音合成方法装置计算机设备介质

[发明专利]语音合成方法、装置、终端设备及存储介质-CN202011582978.5在审
发明人：梁爽;缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2020-12-28 - 公布日： 2021-04-30 - 主分类号： G10L13/08 文献下载
摘要：本申请适用于人工智能技术领域，提供了一种语音合成方法、装置、终端设备及存储介质，方法包括：通过预设编码器将待合成文本生成为字符嵌入序列；基于注意力机制，确定在每个时间步上的字符嵌入序列对应的注意力权重序列；通过预设解码器利用每个时间步上的字符嵌入序列与注意力权重序列，输出每个时间步对应的目标序列；对于每个时间步，通过预设的停止预测网络利用目标序列和字符嵌入序列确定合成停止标签，合成停止标签用于表征待合成文本的合成状态；若合成停止标签为预设值，则根据预设解码器输出的所有目标序列合成待合成文本对应的线性谱。本方法提高了语音合成效率的可控性。
语音合成方法装置终端设备存储介质

1
共 14 条