[发明专利]一种识别AVI类型block的方法有效
| 申请号: | 201410164339.5 | 申请日: | 2014-04-22 |
| 公开(公告)号: | CN103942122B | 公开(公告)日: | 2017-09-29 |
| 发明(设计)人: | 杨一涛;潘俊;孙国梓;刘力颖 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F17/30 |
| 代理公司: | 南京知识律师事务所32207 | 代理人: | 汪旭东 |
| 地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 识别 avi 类型 block 方法 | ||
技术领域
本发明涉及计算机数据挖掘技术领域,特别涉及一种识别AVI类型block的方法。
背景分析
随着信息技术发展,数据恢复作为信息安全的最后一道屏障的作用越来越重要,在司法取证、军事和民用领域的应用需求越发强烈。传统的数据恢复方法针对碎片化的数据即使使用残存的元数据也不能恢复。因此,在数据可能破损并且缺少元数据的情况下如何恢复出数据这一问题亟需解决。破损的数据往往价值很大,有时候包含着案件的关键信息。而在民用领域,视频恢复也有着广泛的应用场合,例如:婚庆公司需要找回不小心删除的客户婚宴DV。视频恢复对于特定企业具有重大的经济价值。信息技术的发展在为人们创造了惊人的数据同时,也向研究人员提出了数据恢复这一课题。
早期的数据恢复过于依赖文件系统提供的元数据,后来逐步出现不依赖元数据恢复数据的文件雕刻方法。文件雕刻根据对文件内部结构和内容恢复出数据。最早出现的文件雕刻方法根据文件头尾的标志顺序读取的方法值适合文件顺序存储的情形。研究表明,几M(兆)以上的文件约有15%~20%的文件会产生碎片,也就是说磁盘上存在大量碎片化的文件。针对碎片化的文件,采用连续读取的雕刻方法就会出错。因此,有必要研究能够适用于碎片文件的雕刻方法。
目前,针对碎片文件的雕刻,已经有相应的框架提出。主要包含识别block、恢复两个部分。但是,在针对AVI(音频视频交错格式)的识别方法中,普遍都有识别率不高的问题。本发明将提出一种新的方法用于AVI类型block的分类。
发明内容
本发明目的在于提出了一种识别磁盘等存储介质中AVI类型block的方法,该方法通过AVI格式固有的字节识别码进行初步识别,然后针对剩余block应用C4.5决策树方法,以字节值频率分布BFD作为特征识别出无字节识别码的AVI类型block,通过先后两轮的识别实现对AVI类型block的识别,
本发明解决其技术问题所采取的技术方案是:本发明是一种在分析AVI类型block特征的基础上,对block中可能含有的字节特征码和字节值频率分布信息进行挖掘,进而依据字节识别码匹配和应用C4.5决策树分类方法识别目标block的方法,该方法主要包含镜像备份、提取block、字节标志码匹配、C4.5决策树识别等步骤。
方法流程:
步骤1:镜像备份。
主要通过专用的备份工具将存储介质中的内容完全备份到其他存储介质中,避免数据恢复过程中对数据源造成破坏。备份的范围从第一个扇区一直到最后一个扇区。备份数据包括元数据部分和实际数据部分。
步骤2:提取block。
通过扫描存储介质,根据文件表,标记出文件表没有记录的块。这些没有记录的块包含未存储的块和元数据丢失或者毁坏的数据块。将没有标记的块备份到其他存储介质中去作为识别目标block的对象。
步骤3:字节标志码匹配。
AVI类型block独有的字节标识码有List、avi、hdrl、avih、strl、strf、strd、JUNK、odml、movi、##wb、##dc、##db(##表示编号01,02,03等)、rec、idx1等。对每个blcok依次检索字节识别码,当block中出现了上文提及到的字节识别码集合中的字节识别码时,就判定为AVI碎片。
步骤4:C4.5决策树识别。
在确定镜像所包含的文件类型后,建立由这些类型block构成的训练集。在各种文件类型数量多少未知的情况下,选取每种类型的block等量,并保证block的数目足够多。然后提取每个block的字节频率分布(Byte Frequency Distribution,BFD)。以此为特征,针对训练集依照C4.5算法建立决策树。使用决策树对每个测试集中的block进行识别。
C4.5算法通过以下步骤建立分类树:(1)计算类别随机变量的熵。(2)轮流以其中一个属性作为根,然后计算熵增益。(3)选择熵增益最大的那个属性为根。
有益效果:
1、本发明能够以较高识别率识别出AVI类型的block。
2、本发明能够适应复杂的存储环境,在包含图片、视频、文档等多种类型格式的block的环境下识别出目标block。
附图说明:
图1为本发明的方法流程图。
图2为C4.5算法的流程图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410164339.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:拉布机布斗辅助滚筒组
- 下一篇:基于多核DSP的自适应任务调度方法





