[发明专利]基于循环神经网络的文件碎片分类方法及装置有效

专利信息
申请号: 201711296147.X 申请日: 2017-12-08
公开(公告)号: CN108319518B 公开(公告)日: 2023-04-07
发明(设计)人: 胡罡;吴鹏;连礼泉;杨欣欣;蔚鹏志;王金龙;刘冲;白楠;李慧波 申请(专利权)人: 中国电子科技集团公司电子科学研究院
主分类号: G06F16/16 分类号: G06F16/16;G06F16/17;G06F18/241;G06N3/044;G06N3/045;G06N3/048;G06N3/08
代理公司: 工业和信息化部电子专利中心 11010 代理人: 于金平
地址: 100041 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 循环 神经网络 文件 碎片 分类 方法 装置
【说明书】:

发明公开一种基于循环神经网络的文件碎片分类方法及装置,所述分类方法首先需要提取文件碎片中的文件内容;然后将提取的所述文件内容转换为十六进制的第一字符串序列;将这些字符串序列作为循环神经网络深度学习算法的输入信息;最后将所述第一字符串序列输入到预先构建的已训练的基于循环神经网络算法的分类模型中,利用所述分类模型对所述文件碎片类型进行判断。本发明通过基于循环神经网络分类算法对碎片的特征向量进行自动特征提取的学习过程实现了对文件碎片类别进行归类。

技术领域

本发明属于计算机取证领域,具体涉及一种基于循环神经网络的文件碎片分类方法及装置。

背景技术

传统的数据恢复方法,主要依赖于文件系统的结构恢复被删除的数据,例如文件分配表内容。大多数文件系统在删除文件的过程不实际删除所在物理位置中的数据,只是标记该区域可以用于存储新的数据。删除结束后文件分配表中的文件条目以及删除文件与簇(即在存储介质中可寻址的最小存储单元)的链接信息依然存在,因此根据文件系统结构信息很容易恢复一个被删除的文件。除了解析处理磁盘上未分配空间的数据,通过访问文件系统结构还可以识别并快速提取所有未被删除的数据。

现有的数据恢复工具主要处理在介质上连续存储的文件数据。如何恢复碎片化的文件数据是目前数据恢复的一个难点。Garfinkel指出与取证案件相关的文件更倾向于以碎片化形式存在,并给出高达58%的Outlook电子邮件客户端数据是碎片化存储的统计数据。造成碎片化的主要原因包括以下几点:

1)磁盘介质长时间使用并随机增加、删除将无法连续存储完整的文件;

2)在现有文件附加数据,如果没有足够的未分配空间,文件系统将数据附加到其它位置;

3)文件系统不支持按某种长度连续存储文件,例如Unix文件系统。

当文件系统结构不存在、损坏以及被人为删除时,以上碎片化存储的文件将无法利用传统方法恢复。现有案例中,由于一些重要文件没有备份只能需要通过恢复技术来获得证据,因此碎片文件数据的恢复有助于案件的取证调查。基于文件雕刻(file carving)的技术是被认为是恢复碎片文件数据的有效解决方案。文件雕刻是一种基于文件内容恢复技术,与传统方法的区别是不依赖于指向文件内容的元数据。

此外文件雕刻技术还可用于恢复硬盘中未分配空间中的文件,未分配空间指的是不再保留任何文件系统结构中所示文件信息(例如文件分配表中的信息)的磁盘空间。在丢失、损坏文件系统结构时整个磁盘空间都是未分配空间,这种情况同样增加了取证调查的难度。

随着研究的深入,许多方法被引入到基于文件雕刻的数据恢复技术中。最早的实现是基于文件头/尾的雕刻方法,该方法根据基于文件签名的数据库识别已知文件类型的起点、终点,然后中间的连续介质存储空间进行恢复处理。该方法的局限性是未考虑文件数据碎片化存储的情况。在此基础上的改进包括:文件头/最大长度雕刻、基于文件结构雕刻、基于语义雕刻、碎片恢复雕刻等。

正确分类文件碎片类型对于成功雕刻文件碎片重要。然而文件碎片分类是复杂的任务,文件类型包含大量不同的类别:从简单的原始类别(primitive type),例如一段ASCII码的text或JPEG文件;到复杂的包含其它类型文件的容器文件(例如Pdf文件)、存档文件(例如RAR、ZIP件)。分类检查的碎片数据包括:数据块,缺少魔数信息(例如文件签名)、文件扩展名、文件系统元数据、数据包头信息以及其它用于标识该类型文件特征的文件碎片。尽管现有商用软件(例如TrID)及开源工具(例如Unix file)根据签名及其它魔数信息能够有效对不明类型数据正确区分,但是在文件系统元数据信息丢失、损坏或位置不明时分类效果不好。

基于内容的分析方法通常用于元数据信息不可用的情况。主要的分析方法包括以下几种:

1)语义解析,分析方法主要根据自然语言结构、语义的形式表达及数据结构和逻辑顺序。由于这类结构和表示在某些类型的文件和数据流中比较罕见,因此语义解析在文件和数据类型分类中作用有限。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711296147.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top