[发明专利]一种基于个性化语音进行视频合成的处理方法及装置在审
申请号: | 202210146223.3 | 申请日: | 2022-02-17 |
公开(公告)号: | CN114519997A | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 王心莹;姚广;朱彦;余意;杨杰 | 申请(专利权)人: | 湖南快乐阳光互动娱乐传媒有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/08;G10L25/57;G06Q10/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱娜 |
地址: | 410003 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 个性化 语音 进行 视频 合成 处理 方法 装置 | ||
本申请公开了一种基于个性化语音进行视频合成的处理方法及装置,获取待处理数据和处于授权状态的视频对象,通过智能审核技术,对待处理数据进行智能审核,得到审核结果,若审核结果为合法的待处理数据,则通过预设模拟规则对视频对象的声线进行模拟,得到目标语音,将目标语音与视频对象对应的视频进行合成,得到个性化视频。通过上述方案,无需人工去截取和逐字拼接个性化语音,只需通过深度学习方法来模拟视频对象的声线来合成个性化语音,并与后续的视频对象对应的视频进行合成,提高个性化语音和视频合成的效果、多样性和趣味性。此外,通过智能审核技术来审核用户输入的内容是否合规,无需人工参与审核,从而提高了审核的效率。
技术领域
本申请涉及音视频处理技术领域,更具体地说,涉及一种基于个性化语音进行视频合成的处理方法及装置。
背景技术
随着计算能力的提高,互联网数据的收集,人工智能已经进入新的发展阶段,人工智能正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人等形象跟用户互动,结合语音合成和语音转换技术,可实现个性化语音和视频合成。
现有技术中,如果让视频中的人物说出用户指定的文字内容,则需要剪辑师在视频中的人物说过的所有话寻找与文本中各个字发音相同的内容,并把他们拼接成一段话。
但是,这样人工去截取和逐字拼接的语音会存在语音不连贯,说话生硬等情况,使得个性化语音和视频合成的效果差且趣味性低。
发明内容
有鉴于此,本申请公开了一种基于个性化语音进行视频合成的处理方法及装置,旨在提高个性化语音和视频合成的效果、多样性和趣味性。此外,通过智能审核技术来审核用户输入的内容是否合规,无需人工参与审核,从而提高了审核的效率。
为了实现上述目的,其公开的技术方案如下:
本申请第一方面公开了一种基于个性化语音进行视频合成的处理方法,所述方法包括:
获取待处理数据和处于授权状态的视频对象;所述待处理数据包括个性化文本数据和/或个性化音频数据;
通过智能审核技术,对所述待处理数据进行智能审核,得到审核结果;所述智能审核用于检测所述待处理数据的合法性;
若所述审核结果为合法的待处理数据,则通过预设模拟规则对所述视频对象的声线进行模拟,得到目标语音;所述目标语音为根据所述合法的待处理数据生成与所述视频对象的声线一致的个性化语音;
将所述目标语音与所述视频对象对应的视频进行合成,得到个性化视频。
优选的,所述获取待处理数据和处于授权状态的视频对象,包括:
从预设信息来源中获取待处理数据和处于授权状态的视频对象。
优选的,所述通过智能审核技术,对所述待处理数据进行智能审核,得到审核结果,包括:
通过智能审核技术,对所述待处理数据中的数据内容进行审核;
当监测到所述待处理数据中的数据内容与预设非法数据内容一致时,确定所述待处理数据为非法的待处理数据;
当监测到所述待处理数据中的数据内容与所述预设非法数据内容不一致时,确定所述待处理数据为合法的待处理数据。
优选的,当所述待处理数据包括个性化文本数据时,所述若所述审核结果为合法的待处理数据,则通过预设模拟规则对所述视频对象的声线进行模拟,得到目标语音,包括:
若所述审核结果为合法的待处理数据,通过声纹识别模型,提取所述视频对象对应的声音特征信息,并将所述声音特征信息嵌入编码为固定维度的向量;所述固定维度的向量用于表征所述视频对象的声音特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210146223.3/2.html,转载请声明来源钻瓜专利网。