“陈云琳”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果56个，建议您升级VIP下载更多相关专利

[发明专利]定制声音的合成方法、装置、电子设备及存储介质-CN202310961831.4在审
发明人：王茜;冯小琴;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-08-01 - 公布日： 2023-10-24 - 主分类号： G10L13/02 文献下载
摘要：本公开提供了一种定制声音的合成方法，包括：对历史音频数据进行分析，构建关于声音维度的定制提示数据库，其中定制提示数据库包括多个定制标签及各个定制标签所对应的多种自然语言标注；调用标签生成模型对定制指令进行分析，以在定制提示数据库中确定关于定制指令的多个目标标签及相应目标标注；以及基于各个目标标签及相应目标标注，将目标文本转换为响应定制指令的定制声音。本公开还提供一种定制声音的合成装置、电子设备及存储介质。
定制声音合成方法装置电子设备存储介质

[发明专利]说话人视频合成方法、装置、电子设备及存储介质-CN202310855662.6在审
发明人：祝阅兵;李永源;李梅;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-07-12 - 公布日： 2023-10-17 - 主分类号： G06T13/40 文献下载
摘要：本公开提供了一种说话人视频合成方法，包括：根据目标视频中的人脸数据，构建由表情参数控制的人像模型；对音频数据进行特征分析，确定音频数据对应的预测表情参数；以及基于预测表情参数，调用唇部区域掩模对人像模型的唇部区域图像进行动画渲染，以形成执行音频数据中说话动作的说话人像。本公开还提供了一种说话人视频合成装置、电子设备及存储介质。
说话视频合成方法装置电子设备存储介质

[发明专利]重读可控语音合成方法、装置、电子设备及存储介质-CN202310954513.5在审
发明人：史文婧;江明奇;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-07-31 - 公布日： 2023-10-10 - 主分类号： G10L13/02 文献下载
摘要：本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。本公开实施例的重读可控语音合成方法包括：获取用户提供的第一文本；通过语音合成模型中的文本编码器获取第一文本的文本编码状态；获取重读特征，重读特征包括第一重读特征和/或第二重读特征，第一重读特征由用户设置，第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到；至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。本公开实施例能够在不降低语音合成质量的前提下实现语音合成的重读可控。
重读可控语音合成方法装置电子设备存储介质

[发明专利]说话人脸的生成方法、装置、电子设备及存储介质-CN202310927998.9在审
发明人：李永源;唐旻杰;祝阅兵;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-07-26 - 公布日： 2023-10-03 - 主分类号： G06V40/16 文献下载
摘要：本公开提供了一种说话人脸的生成方法，包括：将原始视频中图像集对应的人脸特征和音频数据中语音分帧集对应的声音特征进行拼接，获得拼接特征序列，其中所述图像集包括待处理图像及依时序位于其前和其后的多张参考图像，所述语音分帧包括与所述待处理图像相应的目标分帧及依时序位于其前和其后的多个参考语音分帧；调用仿射变换模块对所述拼接特征序列进行形变优化处理，以生成优化特征序列；以及根据所述优化特征序列所映射的面部关键点，构建具有与所述目标分帧相应口型的人脸预测图像。本公开还提供了一种说话人脸的生成装置、电子设备及存储介质。
说话生成方法装置电子设备存储介质

[发明专利]一种基于文本信息生成说话人视频的方法及装置-CN202011577254.1有效
发明人：张旭;杨喜鹏;殷昊;江明奇;陈云琳 -专利权人：北京羽扇智信息科技有限公司
申请日： 2020-12-28 - 公布日： 2023-08-04 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种基于文本信息生成说话人视频的方法及装置，本发明实施例对文本信息进行语音合成处理，生成梅尔频谱图序列；对所述梅尔频谱图序列进行图像处理，生成与文本信息对应的面部图像；对所述梅尔频谱图序列进行语音处理，生成与文本信息对应的语音信息；对所述面部图像和所述语音信息进行合成处理，生成说话人视频。由此能够有效合成说话人视频，并提高说话人视频的合成效果，从而解决现有技术中不同使用者通过语音合成说话人视频导致的合成效果下降且制作成本高的问题。
一种基于文本信息生成说话视频方法装置

[发明专利]一种语音合成方法、装置以及计算机可读存储介质-CN202011391440.6有效
发明人：江明奇;陈云琳;殷昊;杨喜鹏;张旭 -专利权人：问问智能信息科技有限公司
申请日： 2020-12-02 - 公布日： 2023-08-01 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种语音合成方法、装置以及计算机可读存储介质，包括：获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括所述文本信息的第一内容向量；接收针对所述文本信息中每个子文本信息的语音时长信息；根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量；根据所生成的第二内容向量，生成对应于所述文本信息的语音信息。由此，在语音合成过程中，通过控制第一内容向量中的文本时长，使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
一种语音合成方法装置以及计算机可读存储介质

[发明专利]一种对语音信息的训练方法及装置-CN202011577644.9有效
发明人：张旭;殷昊;陈云琳;江明奇;杨喜鹏 -专利权人：出门问问（武汉）信息科技有限公司
申请日： 2020-12-28 - 公布日： 2023-08-01 - 主分类号： G06V10/44 文献下载
摘要：本发明公开了一种对语音信息的训练方法及装置，本发明实施例首先获取语音信息数据；并针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；之后对多个所述时序特征信息进行模型训练，得到面部关键点模型。由此，通过对语音信息进行语义特征提取的学习，以及时序特征提取的学习，从而提升面部关键点模型的性能，使得面部关键点模型能够准确合成面部关键点序列，进而提高说话人视频的合成效果，从而解决现有技术中模型输出说话人画面出现的抖动问题。
一种语音信息训练方法装置

[发明专利]一种基于面部关键点生成说话人图像的训练方法及装置-CN202011577259.4有效
发明人：张旭;殷昊;杨喜鹏;江明奇;陈云琳 -专利权人：出门问问(苏州)信息科技有限公司
申请日： 2020-12-28 - 公布日： 2023-06-30 - 主分类号： G06V40/16 文献下载
摘要：本发明公开了一种基于面部关键点生成说话人图像的训练方法及训练装置，本发明实施例首先将原始图像和合成图像共同作为当前帧样本，得到样本序列，其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用生成器对上一帧样本进行处理而生成的图像；并针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；之后判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；最后根据调整结果，生成图像合成模型。由此，通过时序建模，能够实现图像合成模型合成的画面具有连续性，从而解决了现有技术中由于画面时序性差导致视频出现抖动的问题。
一种基于面部关键生成说话图像训练方法装置

[发明专利]视频生成方法及装置-CN202310121040.0在审
发明人：李永源;唐旻杰;李梅;孙瑜博;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-02-14 - 公布日： 2023-06-27 - 主分类号： G10L25/03 文献下载
摘要：本发明实施例公开了一种视频生成方法及装置，在根据图像文件确定第一人脸特征点和第二人脸特征点并根据音频数据获取至少两个不同说话人的语音数据后，对所述人脸特征点和语音数据进行对应匹配，基于匹配后的至少两个对应的人脸特征点和语音数据，分别生成相应的人脸特征点的偏移序列，进而合成至少两个人脸图像序列，并基于所述人脸图像序列生成双人对话视频。由此，降低了身份信息分离和读取的难度，从而合成双人对话视频，同时使生成的双人对话视频具有生动的姿态表达能力。
视频生成方法装置

[发明专利]一种语音合成方法、装置及存储介质-CN202011619349.5有效
发明人：殷昊;陈云琳;江明奇;杨喜鹏;张旭 -专利权人：出门问问(苏州)信息科技有限公司
申请日： 2020-12-31 - 公布日： 2023-06-27 - 主分类号： G10L13/02 文献下载
摘要：本发明公开了一种语音合成方法、装置及计算机可读存储介质，首先将原始语音信号按频率分解成n个子带频率信号，n的取值为大于等于2的正整数；接着从所述原始语音信号提取梅尔频谱特征；之后根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点；最后利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成，得到对应所述原始语音信号的语音合成信号。
一种语音合成方法装置存储介质

[发明专利]一种多说话人语音合成方法、装置及计算设备-CN202010471223.1有效
发明人：殷昊;陈云琳;江明奇;雷欣 -专利权人：上海墨百意信息科技有限公司
申请日： 2020-05-28 - 公布日： 2023-05-30 - 主分类号： G10L13/047 文献下载
摘要：本公开提供了一种多说话人语音合成方法、装置、可读存储介质及计算设备，解决了多说话人语音合成中，不同声音类型的语音数据的数据量不平衡，导致语音合成质量下降的问题，方法包括：获取包含至少两种声音类型的多说话人语音数据；对所述多说话人语音数据作数据增强处理；将所述多说话人语音数据输入多说话人语音合成系统进行数据训练；在对所述多说话人语音合成系统完成训练后，向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令，指示所述多说话人语音合成系统合成语音。
一种说话人语合成方法装置计算设备

[发明专利]语音合成模型的训练方法、装置、电子设备及存储介质-CN202211580535.1在审
发明人：殷昊;陈云琳;李媛媛 -专利权人：上海墨百意信息科技有限公司
申请日： 2022-12-09 - 公布日： 2023-05-09 - 主分类号： G10L13/02 文献下载
摘要：本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质，所述方法包括：将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中，输出文本样本特征对应的多维预测语音子信号；其中，多维预测语音子信号中每一维度的预测语音子信号的子频带均不同；将多维预测语音子信号输入至子频带编码模块中，获得全部维度的预测语音子信号对应的预测语音信号；将预测语音信号输入至判别器中，确认判别器的输出为预测语音信号的预测属性标识；基于文本音素样本对应的全部维度的标注语音子信号、全部维度的预测语音子信号、预测语音信号的预测属性标识和标注语音标识，调整生成器和/或判别器的参数。
语音合成模型训练方法装置电子设备存储介质

[发明专利]直播交互方法及装置-CN202310092421.0在审
发明人：吕达;唐旻杰;殷昊;侯学东;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-01-30 - 公布日： 2023-05-05 - 主分类号： H04N21/2187 文献下载
摘要：本发明实施例公开了一种直播交互方法及装置，根据接收到的评论信息查询到对应的应答视频数据后，将播放的第一直播视频数据切换为所述应答视频数据，从而避免了真人重复对评论信息进行反馈，降低了直播成本，提高了直播质量。
直播交互方法装置

[发明专利]视频生成方法及装置-CN202310081878.1在审
发明人：候学东;李梅;孙瑜博;吕达;李永源;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2023-01-17 - 公布日： 2023-05-02 - 主分类号： G10L25/03 文献下载
摘要：本发明实施例公开了一种视频生成方法及装置，通过在渲染说话人人脸图像的过程中，加入对于表征人脸形状的人脸身份信息以及表征说话人语音风格的说话人特征，基于多维度的信息利用运动预测模型来生成人脸运动参数，进而基于生成的人脸运动参数合成说话人的人脸图像的帧，并基于多帧图像生成说话人视频。由此，使得生成的说话人视频能够体现出说话人的风格特点，同时提升了说话人人脸的真实感。
视频生成方法装置

[发明专利]一种语音合成模型训练平台-CN202211680618.8在审
发明人：王正;江明奇;杨喜鹏;殷昊;陈云琳 -专利权人：上海墨百意信息科技有限公司
申请日： 2022-12-26 - 公布日： 2023-04-25 - 主分类号： G06F18/214 文献下载
摘要：本申请提供了一种语音合成模型训练平台；所述平台包括：前端模块，用于创建训练任务；后端模块，用于获取前端模块创建的训练任务，若查询到存在图形处理器(GPU)的空闲核心，则将所述空闲核心的计算资源分配给所述训练任务；算法模块，用于对所述训练任务进行训练，得到训练任务的训练结果。本申请提供的语音合成模型训练平台，在创建训练任务确定之后，用户将不用再进行任何操作，直接等待最后的训练结果即可，解决了语音模型训练流程复杂的问题，提高了训练准确率。
一种语音合成模型训练平台

1
2
3
4
下一页»
尾页
共 56 条