[发明专利]基于AI算法的视频压缩和解压方法在审
申请号: | 202110304431.7 | 申请日: | 2021-03-22 |
公开(公告)号: | CN115115718A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 朱贤桢 | 申请(专利权)人: | 朱贤桢 |
主分类号: | G06T9/00 | 分类号: | G06T9/00;G06N3/04;G06N3/08 |
代理公司: | 上海天协和诚知识产权代理事务所 31216 | 代理人: | 李彦 |
地址: | 美*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ai 算法 视频压缩 解压 方法 | ||
1.一种基于AI算法的视频压缩和解压方法,包括一、压缩和二、解压缩,其特征是:
一、压缩时,按如下步骤依次实施:
步骤1,分析:
通过视频codec分析视频文件,获取所述视频文件中的视频信息,并判断所述视频文件是否包含音频信息,如果所述视频文件包含音频信息,则利用所述视频文件的格式所对应的编译器算法,分离出音频信息;
步骤2,获取:
获取所述视频信息中的一帧图像:利用算法,获取需要的目标在所述图像中的位置,随后除去目标,获取所述图像的其他元素并视为所述图像的背景,所述背景存储为文件并命名文件名为时间戳.png;
步骤3,提取:
利用提前训练好的神经网络模型,从每一帧中提取出需要保存的信息;
通过和之前的压缩结果对比,分析所述需要保存的信息是否出现过在之前的图像中,如果没有出现过,保存所述需要保存的信息的截图,命名为peopleA.jpg或objectZ.jpg,或者类似能识别的命名方式,每一帧压缩完的类json文件格式,取名为kson;
如果需要压缩精度较高,则提高同一个人物相似度的判断,需要保存图片命名为peopleAActionA.jpg;
步骤4,压缩:
获取下一帧,比较背景相似度,如果背景没有变化,重复步骤2和3,但其中的存储背景不重复进行,如果背景有变化,需再存一张背景,如此直至完成压缩;
二、解压缩时,按如下步骤依次实施:
步骤1:
读取上述描写的文字文件格式,读取一个kson还原一张图片,还原方法为利用算法,参考解压算法训练步骤,把背景和文字中物体和人物结合,通过预存的背景和人物/物体图像结合生成还原成目标精度的图像;
还原的算法是通过机器学习生成的算法,输入为解压算法产生的数据,输出为连续的图片,通过时间戳升序排序,再结合音频信息,合成视频信息;
生成的图像和原图像相似度通过SIFT或SURF算法去计算,使原图像和生成图像所表达的意义相同;
步骤2:
读取下一个kson循环这个过程;
步骤3:
如果有音频信息,配上预存的音频信息,还原成视频文件的原有格式。
2.如权利要求1所述的基于AI算法的视频压缩和解压方法,其特征是:神经网络模型训练按如下步骤依次实施:
步骤1:确定目标视频压缩内容所要保存的信息;
步骤2:准备好目标训练图像数据或者利用第三方准备好的或公开的数据进行训练,利用交叉验证的方式训练;
利用卷积神经网络按如下①~⑤训练:
①确认网络模型(网络有几层,哪些是卷积层,池化层,激活层,全连接层),
②初始化神经网络,随机初始化每一个神经元的连接权重,以及隐含层阈值和输出层阈值,并给定学习速率和激活层函数确定,
③正向传播计算,
④误差计算并方向传播优化模型,
⑤判断算法是否迭代结束,即是否达到目标准确度,如果不是则重复③~④;
步骤3:
测试模型准确率,利用准备好的测试数据,测试准确度,循环模型训练步骤②~⑤,直到所有数据都测试完毕,至此模型可以以不低于95%的准确率来识别输入图像中是否有目标物体,并可以确定长方形轮廓。
3.如权利要求1或2所述的基于AI算法的视频压缩和解压方法,其特征是:
一、压缩时:
步骤1中:
所述视频文件为mpg格式,
如果mpg文件以0x000001B3作为起始码,则所述mpg文件只包括视频信息,如果以0x000001BA为开头,则所述mpg文件包括视频信息和音频信息;
一个mpg文件内有多个pack,每个pack即为一个已被分割开的mpg文件,如果遇到0x000001BA或者0x000001B3,则表示一个pack结束,一个pack内会包含pack_header,system_hader以及PES_packets,PES_packets是包含图像信息和音频信息的数据包;
如果PES_packets开头为0x000001E0~0x000001EF,则表示是所述mpg文件中视频信息的PES起始代码,如果为0x000001C0~0x000001DF,则表示是所述mpg文件中音频信息的PES起始代码,每一个PES_packet遇到下一个0x000001E0~0x000001EF或者0x000001C0~0x000001DF,则表示该PES_packet结束;
通过分析所述mpg文件格式中的pack和pack中的PES_packets,分离出所述mpg文件中的视频信息和音频信息;
步骤2中:
在每个PES_packet中,获取包含时间标记的时间信息,从所述时间信息中识别出PES_packet中包含哪些时间节点的图像,再从所述PES_packet中单独提出某一帧的图像,同时确认压缩的精度,比如是否需要精确捕捉人物的动作,作为参数输入步骤2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱贤桢,未经朱贤桢许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110304431.7/1.html,转载请声明来源钻瓜专利网。