[发明专利]基于风格迁移与语音识别的视频自动生成连环画的方法在审

申请号：	202110480998.X	申请日：	2021-04-30
公开（公告）号：	CN113301268A	公开（公告）日：	2021-08-24
发明（设计）人：	杜星亮;肖江;谢乃容;霍静;高阳	申请（专利权）人：	南京大学
主分类号：	H04N5/262	分类号：	H04N5/262;H04N5/278;H04N21/44;H04N21/4402;H04N21/439;H04N21/431;G06K9/00;G10L15/26
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210023 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于风格迁移语音识别视频自动生成连环画方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于风格迁移与语音识别的视频自动生成连环画的方法，根据输入的视频提取关键帧并进行筛选，得到可以描述完整视频内容的关键帧后；使用深度学习风格迁移模型将关键帧图像迁移为漫画风格，并使用语音识别模型分析视频中的音频流实现自动化台词生成，最终按照用户指定要求进行连环画生成。本发明在关键帧提取部分引入视频编解码中的相关技术，增大关键帧提取粒度，提高处理速度；同时处理图像和音频，在保留图像主体内容的同时，能够实现台词的匹配与插入；支持多样化的漫画纹理风格以及连环画生成阶段可以自动定位台词与画面的关系。

技术领域

本发明属于计算机应用领域，具体涉及本发明涉及一种基于风格迁移与语音识别的视频自动生成连环画的方法。

背景技术

电视剧，电影等影视资源以及漫画，连环画(电子或纸质)的阅读资源，都是良好的文化载体和艺术表现形式，这二者各有其适用范围和受众。从观看条件来看，视频中含有图像和音频信息，传输数据量大，缓慢，对观看条件要求较高，而连环画仅含有图像信息，传输数据量小，迅速。从展示效果来看，连环画通过引入形变等各种风格，能带来更多样的欣赏体验。因此，视频转连环画的生成方法主要关注生成的连环画是否保留了视频的核心内容，以及是否具有风格多样性。

连环画通常需要由一些具有专业技能的艺术家创作而成，其创作门槛较高。随着互联网和移动互联网的发展普及，视频网站和应用高速发展，越来越多的视频资源被生产出来。因此，通过计算机技术引入一个能够将影视资源自动的转化为漫画，连环画等阅读资源的方法，可以使得原先只能欣赏到影视资源的受众同时享受两种资源，对于偏好连环画的受众，则可以产生新的资源供其使用。

这一方法基于风格迁移和语音识别技术。风格迁移，语音识别都是计算机技术研究领域的热门话题。在漫长的艺术发展史中，产生了诸多风格流派，不同的风格蕴含着不同的文化信息和文化价值，但是，计算机科学家们希望从图像中提取出内容和风格信息，以实现同一图像在不同风格之间进行转换的效果，这种技术具有极高的观赏性的艺术价值，因此风格迁移技术近年来也成为了研究热点。早期的风格迁移技术是基于数学建模的，其基本思路在于对某一风格的图像进行分析，而后建立对应的数学或者统计模型，而后将需要进行风格迁移的图像输入，对其做出改变，以求更好的适应对应风格的数学或统计模型。该思路的实践效果较好，但是有致命弱点，那就是对于一个风格的图像建立的数学或统计模型并不具有普适性，也即每次对应于一个风格，就要从头开始分析建模，导致一个程序仅能处理一种风格，具有较大的限制，不够灵活，难以进行广泛的应用和推广。近年来随着深度学习的广泛应用，国内外风格迁移技术已有了一定积淀，风格迁移技术根据其基础技术，主要可以分为几个大类，基于优化的Neural Style方法，基于统计的AdaIN/WCT方法，基于匹配的Style Swap方法，统计和匹配相结合的AvatarNet方法，SANet方法。语音识别技术的发源更早，早在计算机技术出现之前，语音识别技术就已经进入信号处理等领域的研究工作中了，最早的基于电子计算机的语音识别系统是ATT贝尔实验室开发的Audrey系统，20世纪60年代，人工神经网络被引入语音识别领域，线性预测码和动态时间规整是这一时代的重大突破，而后来隐马尔可夫模型在语音识别领域受到应用，李开复实现了第一个基于隐马尔可夫模型的语音识别系统，严格来说，之后的语音识别技术均为未脱离这一框架，现如今，主流的语音识别系统多采用统计模式识别技术。在连环画生成领域，Comixify是一个端到端的解决方案，其首先使用的基于深度学习设计的关键帧提取器处理视频。在以固定频率视频进行采样后，使用视频的主要段落来选择代表视频的帧子集。之后，使用图像美感评估引擎对选定的帧进行评估，以缩小提取的关键帧的数量，然后进行帧图像的风格迁移。这种方案能自动地以模型偏好选择关键帧，使用方便但是可定制性有一定损失。并且这一方法没有考虑视频中的音频流，导致生成的连环画完全丢失了台词等信息。

发明内容

发明目的：针对视频转连环画自动生成这一任务，本发明提供一种基于风格迁移与语音识别的视频自动生成连环画的方法，完成自动生成连环画的任务，保留视频主要内容，并提升生成效果的可定制性，方法的可扩展性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110480998.X/2.html，转载请声明来源钻瓜专利网。

上一篇：退役阀控式铅酸蓄电池剩余容量快速估算方法及其应用
下一篇：一种基于CuV2

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N5-00 电视系统的零部件
H04N5-04 .同步
H04N5-14 .视频图像信号电路
H04N5-222 .电视演播室线路；电视演播室装置；电视演播室设备
H04N5-30 .转变光或模拟信息为电信号
H04N5-38 .发射机电路

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于风格迁移与语音识别的视频自动生成连环画的方法在审

专利文献下载