“李睿端”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果8个，建议您升级VIP下载更多相关专利

[发明专利]一种语音数据标注方法和装置-CN202110720290.7有效
发明人： 李睿端;武卫东 -专利权人：北京天行汇通信息技术有限公司
申请日： 2021-06-28 - 公布日： 2023-08-18 - 主分类号： G10L13/10 文献下载
摘要：本发明提供了一种语音数据标注方法和装置，涉及自然语言技术领域。本发明提供的语音数据标注方法和装置，通过获取待标注语音信息的待标注文本数据和待标注音频数据；将所述待标注文本数据转换为拼音序列数据；将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。本发明实施例从韵律标注及音素切分两方面，基于序列韵律标注及强制对齐模型的进行音素起止时间标注，实现自动标注语音数据的目的。
一种语音数据标注方法装置

[发明专利]多音字消歧方法、装置、电子设备及可读存储介质-CN202310484396.0在审
发明人： 李睿端;陈明;李健;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2023-04-28 - 公布日： 2023-08-15 - 主分类号： G10L13/10 文献下载
摘要：本发明实施例提供了一种多音字消歧方法、装置、电子设备及存储介质，包括：获取目标多音字包括掩码信息，分词信息、词性信息和语义信息的属性信息，将属性信息输入包括：声母分类器，韵母分类器，声调分类器的Transformer编码器后，将输出结果进行拼接，生成第一拼音预测结果，根据目标多音字的拼音权重信息和第一拼音预测结果确定最终拼音预测结果，本发明实施例通过将Transformer编码器拆解为三个分类器使得在数据量不多或者数据不平衡的情况下，声韵母模型可以得到充分训练，提高多音字预测正确率，同时通过增加拼音权重信息，可以提前限制好可能的多音字读音，使得多音字消歧的预测结果更加准确。
多音字方法装置电子设备可读存储介质

[发明专利]语音合成方法、装置、电子设备及存储介质-CN202210885008.5在审
发明人： 李睿端;李健;陈明;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2022-07-26 - 公布日： 2022-11-25 - 主分类号： G10L13/08 文献下载
摘要：本申请是关于一种语音合成方法、装置、电子设备及可读存储介质，包括：通过获取文本数据和文本数据对应的音频数据；根据文本数据和目标音素编码获取拼接编码；将音素编码和目标音素编码进行拼接，得到拼接编码；将拼接编码输入生成模型中生成模拟音频数据，输出第一损失函数；根据第一损失函数对判别模型进行训练，得到训练后的判别模型；将模拟音频数据和所述音频数据输入训练后的判别模型进行判断；根据判断结果对生成模型进行迭代优化，直至模拟音频数据在判别模型中输出的判断结果等于预设阈值，输出目标音频数据。本申请通过生成模型和判别模型在更多的音素组合上的表现，使其更加贴近发言人的真实说话效果。
语音合成方法装置电子设备存储介质

[发明专利]语音合成效果评价方法及装置、电子设备及可读存储介质-CN202210752760.2在审
发明人： 李睿端;李健;陈明;武卫东 -专利权人：北京捷通数智科技有限公司
申请日： 2022-06-29 - 公布日： 2022-11-25 - 主分类号： G10L25/69 文献下载
摘要：本发明公开了一种语音合成效果评价方法及装置、电子设备及可读存储介质。其中，该方法包括：将合成音频的音频谱图输入至预先训练完成的语音效果评价模型；通过语音效果评价模型中的编码器，根据音频谱图确定第一向量；通过语音效果评价模型中的解码器，根据第一向量确定合成音频的评价得分。本发明解决了由于相关技术中语音合成效果需要人工进行评价，而导致语音合成效果评测工作耗时费力的技术问题。
语音合成效果评价方法装置电子设备可读存储介质

[发明专利]端到端语音合成模型的优化方法及装置，电子设备-CN202011530802.5有效
发明人： 李睿端;李健;陈明;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2020-12-22 - 公布日： 2022-08-09 - 主分类号： G10L13/08 文献下载
摘要：本发明提供了一种端到端语音合成模型的优化方法及装置，电子设备及存储介质，其中，方法包括：按照第一预设规则，对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；依次采用音素编码器对所述第二文本进行编码，采用可变信息预测器对编码后的所述第二文本进行预测处理后，得到第一输出；按照第二预设规则，对所述第一输出进行第二软遮挡；将经过所述第二软遮挡处理的所述第一输出，输入至预设解码器中解码得到梅尔谱。本发明提供的端到端语音合成模型的优化方法，对端到端语音合成模型的输入和解码器输入分别添加软遮挡，从而增加数据扰动，能够提升对端到端语音合成模型的鲁棒性。
端到端语音合成模型优化方法装置电子设备

[发明专利]一种多音字消歧方法、装置、电子设备及可读存储介质-CN202210086347.7在审
发明人： 李睿端;李健;武卫东;陈明 -专利权人：北京捷通华声科技股份有限公司
申请日： 2022-01-25 - 公布日： 2022-05-27 - 主分类号： G10L13/02 文献下载
摘要：本发明是关于一种多音字消歧的方法、装置、电子设备及可读存储介质，涉及语音处理技术领域，包括：将待处理文本划分为若干个字符，其中，所述若干个字符包括目标多音字字符和非目标多音字字符；针对每个字符，获取所述字符对应的第一标识；将所述字符以及所述字符对应的第一标识输入至预先生成的目标多音字消歧模型，根据所述目标多音字消歧模型的输出确定所述目标多音字字符的发音。应用于语音合成系统中实现多音字消歧的场景中，本发明通过利用目标多音字消歧模型对待处理文本中的目标多音字字符进行多音字消歧，进而提高了这些场景下多音字消歧的预测速度，进一步地，提高了多音字消歧的效果。
一种多音字方法装置电子设备可读存储介质

[发明专利]一种音库训练数据的分析方法和装置-CN202111087321.6在审
发明人： 李睿端;李健;武卫东;陈明 -专利权人：北京捷通华声科技股份有限公司
申请日： 2021-09-16 - 公布日： 2022-01-04 - 主分类号： G10L15/16 文献下载
摘要：本发明提供了一种音库训练数据的分析方法和装置，其中方法包括以下步骤：根据音库样本数据对一基础模型进行训练以得到语音识别模型，从音库训练数据中提取至少一个语音片段，计算语音片段的信噪比，输入语音识别模型中进行语音识别，计算语音片段的语速，将语音片段输入神经网络，捕捉发言人的特征，计算出发言人的说话人向量，将符合要求的语音片段加入音库样本。本技术方案在语速稳定度、信噪比、发言人特征三个方面进行评估，借助ASR技术、利用SNR值、说话人向量等特征自动化评估音库训练数据的质量，相对传统通过人工对原始语音进行剪辑、识别，得到音库所需要的语料的方法，提高了音库训练数据评估的速度、降低了人工的工作量。
一种训练数据分析方法装置

[发明专利]一种训练韵律预测模型方法、装置、设备及存储介质-CN202011054912.9在审
发明人： 李睿端;李健;武卫东;陈明 -专利权人：北京捷通华声科技股份有限公司
申请日： 2020-09-28 - 公布日： 2021-02-09 - 主分类号： G10L13/10 文献下载
摘要：本申请提供了一种训练韵律预测模型方法、装置、设备及存储介质，涉及自然语言理解技术领域。结合声学模型优化韵律预测模型的训练样本，使训练样本标注的韵律停顿信息更加符合目标场景或目标发音人的发音特征，利用优化后的样本训练韵律预测模型，提高了练韵律预测模型的鲁棒性。方法包括：获得与目标场景对应的声学模型；将携带有初始停顿标记的第一文本样本输入声学模型，得到携带有初始停顿标记的第二文本样本，在第二文本样本中，初始停顿标记具有置信度；根据第二文本样本中每个初始停顿标记具有的置信度，清除第二文本样本的部分初始停顿标记；利用清除部分初始停顿标记后的第二文本样本训练韵律预测模型，得到目标场景的韵律预测模型。
一种训练韵律预测模型方法装置设备存储介质

1
共 8 条