“张政臣”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果26个，建议您升级VIP下载更多相关专利

[发明专利]一种语音合成方法及装置、存储介质-CN201910901693.4有效
发明人：宋伟;武执政;张政臣 -专利权人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
申请日： 2019-09-23 - 公布日： 2023-09-01 - 主分类号： G10L13/02 文献下载
摘要：本发明实施例提供一种语音合成方法，包括：获取表征目标文本的符号序列，并对符号序列中每一个符号分别进行编码处理，得到特征向量序列；基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列；预设注意力模型为具备单调注意力机制和单步转移机制的模型；利用声学特征序列合成目标文本对应的语音。
一种语音合成方法装置存储介质

[发明专利]一种语音识别的方法和装置-CN202310318553.0在审
发明人：冯明超;黎陈;王佳;王佳;张政臣;陈蒙;何晓冬 -专利权人：京东科技信息技术有限公司
申请日： 2023-03-28 - 公布日： 2023-07-21 - 主分类号： G10L15/26 文献下载
摘要：本发明公开了一种语音识别的方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：根据第一文本数据对应的多个语音数据，通过语音识别模型生成多个第二文本数据；对于每一第二文本数据，在第二文本数据与第一文本数据不一致的情况下，通过第一文本数据和第二文本数据生成短语数据对；对所有短语数据对进行数据挖掘处理，生成易错短语对，并利用易错短语对优化语音识别模型；使用优化后的语音识别模型进行语音识别。该实施方式能够通过挖掘异常数据得到高质量的训练数据，降低优化模型所耗费的成本，提高优化模型的效率，并且在使用时可以提高语音识别模型的准确率和效率，从而优化人机语言交互系统的效果，提高用户的使用体验。
一种语音识别方法装置

[发明专利]一种语音样本数据生成方法、装置、设备和存储介质-CN202310307878.9在审
发明人：宋伟;金波;张政臣;吴友政;何晓冬 -专利权人：京东科技信息技术有限公司
申请日： 2023-03-27 - 公布日： 2023-06-27 - 主分类号： G06F40/30 文献下载
摘要：本发明实施例公开了一种语音样本数据生成方法、装置、设备和存储介质，涉及人工智能领域。该方法包括：获取包含目标多音字的原有样本数据；基于预设数据增强方式，对原有样本数据中的目标多音字的上下文数据进行增强处理，确定包含目标多音字的增强样本数据；基于语言评估模型对增强样本数据进行语言流畅度评估，确定增强样本数据对应的流畅度评估结果；基于流畅度评估结果，确定目标多音字对应的目标样本数据。通过本发明实施例的技术方案，可以自动生成多音字的样本数据，无需人工参与，提高了样本数据生成效率。
一种语音样本数据生成方法装置设备存储介质

[发明专利]语音合成方法和装置、存储介质、电子设备-CN202310189613.3在审
发明人：岳杨皓;宋伟;张雅洁;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-27 - 公布日： 2023-06-23 - 主分类号： G10L13/10 文献下载
摘要：本公开提供一种语音合成方法和装置、存储介质、电子设备；涉及信息处理技术领域。该方法包括：获取待合成语句的符号序列，利用预先训练的声学预测模型，对所述符号序列进行声学特征预测，得到待合成语句对应的声学特征；声学预测模型包括韵律预测模型，韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征，以在语音合成阶段增强所述待合成语句的韵律特征；对声学特征进行特征转换和合成，得到待合成语句对应的语音。本公开可以解决相关技术中语音合成系统无法满足特定业务场景对韵律自然度和表现力的需求及语音合成效果不佳的问题。
语音合成方法装置存储介质电子设备

[发明专利]声码器的构建方法、语音处理方法及相关设备-CN202211573321.1在审
发明人：吴雨璇;宋伟;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2022-12-08 - 公布日： 2023-06-23 - 主分类号： G10L13/04 文献下载
摘要：本发明提供一种声码器的构建方法、语音处理方法及相关设备，包括利用样本集对生成器进行训练，确定训练完成的生成器；将生成器和与生成器训练得到的判别器组成作为声码器；训练过程为分别对第一特征向量对应的第一输出音频，及第二特征向量对应的第二输出音频进行处理，确定第一时域损失、第一频域损失、第二时域损失和第二频域损失；对第二特征向量对应的第三输出音频进行处理，确定第三频域损失；进而计算生成器的总损失；基于总损失训练生成器的网络。在本方案中，在对生成器进行训练时，通过计算多分辨率的时域损失和频域损失，进而计算生成器的总损失；通过上述方式能够加快声码器训练的收敛速度，以提高声码器语言处理质量。
声码构建方法语音处理相关设备

[发明专利]语音编辑方法、装置、电子设备及存储介质-CN202310193793.2在审
发明人：宋伟;岳杨皓;张雅洁;张政臣;吴友政;何晓冬 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-23 - 公布日： 2023-05-30 - 主分类号： G10L13/033 文献下载
摘要：本公开提供了一种语音编辑方法、装置、电子设备及计算机可读存储介质，涉及语音处理技术领域。该方法包括：通过对齐工具获取语音和文本的对齐结果，根据对齐结果及编辑文本确定目标梅尔谱，目标梅尔谱包括：掩蔽区域梅尔谱、及非编辑区域梅尔谱，掩蔽区域由语音模型预测编辑文本中的变更文本预测得到，将编辑文本及目标梅尔谱发送至语音模型预测掩蔽区域梅尔谱，得到预测梅尔谱，通过声码器合成预测梅尔谱及非编辑区域梅尔谱得到最终语音，本公开实施例能够提升编辑效果和边界过度效果。
语音编辑方法装置电子设备存储介质

[发明专利]一种声码器的训练方法、音频合成的方法和装置-CN202310186600.0在审
发明人：吴雨璇;宋伟;张政臣;吴友政;何晓冬 -专利权人：京东科技信息技术有限公司
申请日： 2023-03-01 - 公布日： 2023-05-16 - 主分类号： G10L19/16 文献下载
摘要：本发明公开了一种声码器的训练方法、音频合成的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：将训练集样本输入到生成器中，训练集样本包括多个音频特征样本和与每个音频特征样本对应的真实音频；在生成器中，对音频特征样本进行压缩处理，获得压缩后的音频特征样本；对压缩后的音频特征样本进行卷积处理和解压缩处理，获得与音频特征样本对应的生成音频；将与音频特征样本对应的生成音频和真实音频输入到判别器中，基于生成音频和判别音频构造损失函数，基于损失函数训练得到声码器。该实施方式能够增大声码器的感受野，提高了音频质量，并减少了声码器的计算量，提高了声码器的推理速度，从而提升音频的生成效率。
一种声码训练方法音频合成装置

[发明专利]语音风格迁移合成方法及装置、电子设备、存储介质-CN202310134171.2在审
发明人：宋伟;岳杨皓;张雅洁;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-07 - 公布日： 2023-05-16 - 主分类号： G10L13/08 文献下载
摘要：本公开提供了一种语音风格迁移合成方法及装置、电子设备、存储介质，涉及语音合成技术领域。该方法包括：获取待合成语音文本，确定待合成语音文本对应的音素序列；确定具有目标音色的对象语音嵌入向量；将音素序列以及对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；语音风格迁移合成模型用于预测目标语音风格的韵律特征，语音风格迁移合成模型包括用于生成韵律特征的韵律预测器，目标语音音频在播放时符合目标音色和目标语音风格。本公开实施例的技术方案可以在不改变音色的前提下，实现任意类型的语音风格的迁移，并且通过韵律预测器使合成的目标语音音频的语音风格可调，提升合成的目标语音音频的质量。
语音风格迁移合成方法装置电子设备存储介质

[发明专利]语音合成模型的训练方法、语音合成方法及装置-CN202310138459.7在审
发明人：宋伟;张雅洁;岳杨皓;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-14 - 公布日： 2023-05-02 - 主分类号： G10L13/02 文献下载
摘要：本申请提出一种语音合成模型的训练方法、语音合成方法及装置，涉及深度学习、语音技术等人工智能技术领域，语音合成模型的训练方法包括：获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识，至少一个同一说话人标识对应的第一样本音频具有单一风格特征；将第一样本音频对应的第一音素序列以及对应的说话人标识输入语音合成模型，得到第一样本音频的预测声学特征；基于各第一样本音频的预测声学特征和样本声学特征对语音合成模型进行训练。实现了对音频中的音色特征和风格特征的解耦，从而可以利用多个说话人各自对应的具有单一风格特征的音频来训练语音合成模型，进而减少了语音合成模型的训练成本。
语音合成模型训练方法装置

[发明专利]一种语音合成方法及装置-CN202310148873.6在审
发明人：张雅洁;宋伟;岳杨皓;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2023-02-14 - 公布日： 2023-05-02 - 主分类号： G10L13/08 文献下载
摘要：本公开提供一种语音合成方法及装置，其中，该方法包括：基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；其中，所述历史句子为文本数据中待转换目标句子之前的句子；确定所述目标句子对应的音素嵌入序列，将音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定目标句子对应的语音波形。本公开提供的语音合成方法，能够提高语音合成韵律的连续性和丰富性，及对未见领域的泛化能力，从而提升了合成语音的自然度和表现力。
一种语音合成方法装置

[发明专利]一种语音合成方法及装置、存储介质及电子设备-CN202211465063.5在审
发明人：岳杨皓;宋伟;张政臣;吴友政 -专利权人：京东科技信息技术有限公司
申请日： 2022-11-22 - 公布日： 2023-03-24 - 主分类号： G10L13/10 文献下载
摘要：本发明提供一种语音合成方法及装置、存储介质及电子设备，该方法包括：获取待合成文本的音素信息，该音素信息中包含待合成文本中每个文本单元的音素，以及包含该待合成文本中需要调整发音的文本单元的位置信息，文本单元为单词或单字；获取配音人员的身份信息，基于所述身份信息确定音色信息；调用预先训练完成的声学模型对音素信息和音色信息进行处理，得到待合成文本中需要调整发音的文本单元的声学特征；应用声学特征合成待合成文本的拟人化音频。应用本发明可以对待合成文本中的文本单元的发音进行调整，以使得音频中包含丰富的语气，合成的音频更加的拟人化，为用户提供更加优质的服务，提高用户的使用体验。
一种语音合成方法装置存储介质电子设备

[发明专利]语音识别模型的训练方法、装置及系统-CN202110772680.9在审
发明人： 张政臣;资礼波;李萧萧 -专利权人：京东科技控股股份有限公司
申请日： 2021-07-08 - 公布日： 2023-01-13 - 主分类号： G10L15/06 文献下载
摘要：本发明实施例涉及一种语音识别模型的训练方法，该方法包括：客户端获取目标语言的文本内容，采集用户录入的与文本内容对应的目标语言语音样本，存储该语音样本，并从该语音样本中提取语音特征，响应于用户触发的训练语音识别模型的指令，从服务器获取语音识别模型的第一参数，服务器响应于客户端的请求将第一参数发送给客户端，客户端利用该第一参数对语音识别模型进行初始化，以语音特征作为输入，以文本序列作为输出，对该语音识别模型进行训练，进行参数更新得到第二参数，完成训练后，将上述第二参数发送给服务器，服务器在接收到第二参数后进行整合并将整合结果作为下一轮客户端请求调用的第一参数。
语音识别模型训练方法装置系统

[发明专利]基于音色克隆的语音合成方法、装置及相关设备-CN202110482151.5有效
发明人：宋伟;袁鑫;张政臣;吴友政;何晓冬;周伯文 -专利权人：京东科技控股股份有限公司
申请日： 2021-04-30 - 公布日： 2022-12-27 - 主分类号： G10L13/08 文献下载
摘要：本公开实施例提供一种基于音色克隆的语音合成方法、装置、电子设备及可读介质，该方法包括：获取针对目标用户的待克隆文本，并获得所述待克隆文本的音素序列，所述音素序列包括至少一个音素；通过第一模型对所述音素序列处理获得预测时长序列，所述预测时长序列包括各音素的预测时长；通过第二模型对各音素的预测时长和所述音素序列进行处理，获得目标预测特征；根据所述目标预测特征语音合成。本公开实施例提供的基于音色克隆的语音合成方法、装置、电子设备及可读介质，能够提升模型的鲁棒性，提高语音合成的准确性和合成质量。
基于音色克隆语音合成方法装置相关设备

[发明专利]外呼方法、装置、介质、服务器及智能机器人-CN202211139410.5在审
发明人：张同宇;季圣哲;王宇光;吕军;张小伟;程建波;张政臣;东旭辉;董燮;关慧亮 -专利权人：京东科技控股股份有限公司
申请日： 2022-09-19 - 公布日： 2022-12-06 - 主分类号： H04M3/493 文献下载
摘要：本公开提供一种外呼方法、装置、介质、服务器及智能机器人，方法包括：在当前工作场景为外呼场景的情况下，对第一标识对应的待外呼数据进行排序，得到外呼列表，待外呼数据包括第二标识；生成外呼指令，并将外呼指令发送给智能机器人；其中，外呼指令包括：第一标识的音色类型和外呼列表；其中，外呼指令用于指示智能机器人获取与外呼列表中的第二标识对应的沟通策略；基于音色类型和沟通策略，对外呼列表中的第二标识发起外呼操作。本公开用以解决现有技术中利用智能机器人辅助人工作业时产生的一系列的缺陷，实现主动控制智能机器人进行与人工外呼相匹配的外呼操作。
方法装置介质服务器智能机器人

[发明专利]一种语音合成方法、装置、电子设备及存储介质-CN202110527979.8在审
发明人：张超;宋伟;张政臣;何晓冬;周伯文 -专利权人：京东科技控股股份有限公司
申请日： 2021-05-14 - 公布日： 2022-11-15 - 主分类号： G10L13/02 文献下载
摘要：本申请公开了一种语音合成方法，所述语音合成方法包括：获取当前句子的上下文句子，构建包括所述当前句子和所述上下文句子的句子集合；对所述句子集合中的句子执行文本特征提取操作得到跨句特征，并利用所述跨句特征训练语音合成模型；利用训练后的语音合成模型合成目标文本的语音信息。本申请利用跨句特征训练语音合成模型，由于跨句特征能够描述文本的上下文的篇章结构，因此训练后的语音合成模型能够基于上下文篇章结构合成语音，进而提高了语音合成的韵律效果。本申请还公开了一种语音合成装置、一种电子设备及一种存储介质，具有以上有益效果。
一种语音合成方法装置电子设备存储介质

1
2
下一页»
尾页
共 26 条