[发明专利]一种基于自监督学习的音乐合成视频MV的方法在审
申请号: | 202010097990.0 | 申请日: | 2020-02-17 |
公开(公告)号: | CN111339865A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 康洪文 | 申请(专利权)人: | 杭州慧川智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G10L15/08;G11B27/02;H04N21/234;H04N21/439;H04N21/44 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 宫建华 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 音乐 合成 视频 mv 方法 | ||
本发明公开了一种基于自监督学习的音乐合成视频MV的方法,它包含以下步骤:一、从已有的素材库中,分离出音频和视频流;二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;三、根据音乐的节奏、声纹信息自动分类;四、从音乐中分离出人声,乐器,伴奏以及歌词;五、由视频文件中的时间戳同步音视频相关特征信息;六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;七、输入任何一段音乐,合成相应的视频MV;本发明可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。
技术领域
本发明涉及媒资管理技术领域,具体涉及一种基于自监督学习的音乐合成视频MV的方法。
背景技术
在移动互联网、大数据、AI智能的技术驱动下,短视频正以其自身优势,打破内容行业的传统思路。短视频平台能够基于用户的兴趣偏好,实现精准匹配、智能导流,并通过短视频内容,智能辐射多元分发渠道,精准触达多级用户,使用户低成本理解视频主题并引起共鸣,获得更多的认可和转发。随着5G技术的发展,平台运营成本降低,移动端网速大幅提升,短视频井喷的流量和突出的营销效应,使得用户的社交活跃性和使用黏性大大提升,越来越符合移动用户时间碎片化的体验。
音乐与短视频MV同时具有娱乐属性,但由于其语音特性,无法向用户提供直观、丰满的画面信息,而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据,再从中选出一些跟音乐节奏等信息相匹配的片段来,耗费了巨大的时间与精力。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于自监督学习的音乐合成视频MV的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、从已有的素材库中,分离出音频和视频流;
二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;
三、根据音乐的节奏、声纹信息自动分类;
四、从音乐中分离出人声、乐器、伴奏以及歌词;
五、由视频文件中的时间戳同步音视频相关特征信息;
六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;
七、输入任何一段音乐,合成相应的视频MV。
进一步地,步骤二的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息;
进一步地,步骤三的具体方法是:使用GRU(Gated Recurrent Unit)网络识别音乐的旋律节奏、情感、流派、声纹特征,并按照不同的特征对其分类;
进一步地,步骤四的具体方法是:使用LSTM(Long Short-Term Memory)长短期记忆网络,基于音乐时间序列中的间隔和延迟,将人声、乐器、伴奏、歌词信息从音乐中分离出来;
进一步地,步骤六的具体方法是:根据步骤三和步骤四得到的不同的音乐特征,使用RNN(Recurrent NeuralNetwork)网络来学习对应的视频信息,从而形成音乐和视频的映射关系;
进一步地,步骤七的具体方法是:首先根据步骤三的方法,对输入的音乐进行分类;再根据步骤六得到的音乐和视频映射关系,从素材库中选择合适的视频片段,合成相应的视频MV。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州慧川智能科技有限公司,未经杭州慧川智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010097990.0/2.html,转载请声明来源钻瓜专利网。