[发明专利]基于循环神经网络的文件碎片分类方法及装置有效

专利信息
申请号: 201711296147.X 申请日: 2017-12-08
公开(公告)号: CN108319518B 公开(公告)日: 2023-04-07
发明(设计)人: 胡罡;吴鹏;连礼泉;杨欣欣;蔚鹏志;王金龙;刘冲;白楠;李慧波 申请(专利权)人: 中国电子科技集团公司电子科学研究院
主分类号: G06F16/16 分类号: G06F16/16;G06F16/17;G06F18/241;G06N3/044;G06N3/045;G06N3/048;G06N3/08
代理公司: 工业和信息化部电子专利中心 11010 代理人: 于金平
地址: 100041 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 循环 神经网络 文件 碎片 分类 方法 装置
【权利要求书】:

1.一种基于循环神经网络的文件碎片分类方法,其特征在于:

提取文件碎片中的文件内容;

将提取的所述文件内容转换为十六进制的第一字符串序列;将字符串序列的每一个字符与预先形成的字典索引相关联,预定义字典是一个随机初始化而成的低维的实数向量组,每一向量对应一个字符,从预定义字典中引用相应的字符表示,定义字符向量维度为d;

将所述第一字符串序列输入到预先构建的已训练的基于循环神经网络算法的分类模型中,利用所述分类模型对所述文件碎片类型进行判断;在所述基于循环神经网络算法训练过程中更新关联的字符向量使其具有语义信息;

所述方法还包括:将提取的所述文件内容转换为二进制的第二字符串序列,分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值,若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同,重新提取文件碎片中的文件内容。

2.如权利要求1所述的方法,其特征在于:构建所述基于循环神经网络算法的分类模型,包括:

根据预设条件利用循环神经网络算法建立分类模型;

所述预设条件包括如下条件中的一个或多个:分类模型的配置选项,批量数据大小、训练数据位置、模型输入接口位置信息、输入的文件碎片位置信息、文件碎片大小信息、时序步长和SGD算法选择。

3.如权利要求1或2所述的方法,其特征在于:所述基于循环神经网络算法的分类模型包括至少四层隐藏单元,其中前三层隐藏单元采用全连接神经网络单元。

4.如权利要求1或2所述的方法,其特征在于:所述基于循环神经网络算法的分类模型包括多层隐藏单元,其中一层隐藏单元采用双向循环神经网络。

5.如权利要求1所述的方法,其特征在于:所述提取文件碎片中的文件内容之前,所述方法还包括:

采用已知文件类型特征的文件碎片作为训练参数,对预先构建的基于循环神经网络算法的分类模型进行训练,获得所述分类模型中的各参数。

6.一种基于循环神经网络的文件碎片分类装置,其特征在于:包括信息采集模块、预处理模块和分类处理模块,

所述信息采集模块,用于提取文件碎片中的文件内容;

所述预处理模块,用于提取的将所述文件内容转换为十六进制的第一字符串序列;将字符串序列的每一个字符与预先形成的字典索引相关联,预定义字典是一个随机初始化而成的低维的实数向量组,每一向量对应一个字符,从预定义字典中引用相应的字符表示,定义字符向量维度为d;

所述分类处理模块,用于将预处理模块中的所述第一字符串序列输入到预先构建的基于循环神经网络算法的分类模型中,利用所述分类模型对所述文件碎片类型进行判断;在所述基于循环神经网络算法训练过程中更新关联的字符向量使其具有语义信息;

所述预处理模块还包括:将提取的所述文件内容转换为二进制的第二字符串序列,分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值,若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同,重新提取文件碎片中的文件内容。

7.如权利要求6所述的装置,其特征在于:所述装置还包括:分类模型构建模块,

所述分类模型构建模块,用于根据预设条件利用循环神经网络算法建立分类模型;

所述预设条件包括如下条件中的一个或多个:分类模型的配置选项,批量数据大小、训练数据位置、模型输入接口位置信息、输入的文件碎片位置信息、文件碎片大小信息、时序步长和SGD算法选择。

8.如权利要求6或7所述的装置,其特征在于:所述基于循环神经网络算法的分类模型包括至少四层隐藏单元,其中前三层隐藏单元采用全连接神经网络单元。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711296147.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top