[发明专利]一种白样本数据库的处理方法及装置在审
申请号: | 202211246068.9 | 申请日: | 2022-10-12 |
公开(公告)号: | CN115906074A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 张启迪;董雷 | 申请(专利权)人: | 安天科技集团股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F16/23;G06F18/22 |
代理公司: | 北京科衡知识产权代理有限公司 11928 | 代理人: | 王淑静 |
地址: | 150028 黑龙江省哈尔滨市高新技术产*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 数据库 处理 方法 装置 | ||
本发明实施例公开一种白样本数据库的处理方法及装置,涉及网络安全技术领域。所述方法包括:获取恶意样本数据库和白样本数据库;利用分析模型对恶意样本数据库进行解析,得到恶意样本的向量特征;利用分析模型对白样本数据库进行解析,得到白样本的向量特征;对比恶意样本的向量特征和白样本的向量特征,得到目标特征值;根据目标特征值对待识别样本数据进行识别,根据识别结果更新白样本数据库。本申请提供的一种白样本数据库的处理方法及装置,可以更有效识别何为白样本,实现了对白样本数据库快速迭代。
技术领域
本发明涉及网络安全技术领域,尤其涉及一种白样本数据库的处理方法及装置。
背景技术
误报率是恶意代码检测引擎的一项非常重要的指标,白样本数据库既可以在前期的开发测试中检查检测特征、模块的误报情况,也可以在后期的检测中作为白名单,避免错误报警。常规的白样本收集方式为使用脚本等自动化方式或者人工的方式从可信的网站及可信的系统中收集样本,或者通过第三方机构收集白样本。
上述的收集方式对于版本更新的白样本的识别能力依赖于收集路径,而收集路径有自己的工作流程,这意味着白样本数据库无法做到在短时间内完成更新响应。同时,目前对白样本数据库的更新仅基于哈希值等常规特征的识别,这使得白样本数据库的迭代效率低下。
发明内容
有鉴于此,本发明实施例提供一种白样本数据库的处理方法及装置,以解决现有白样本数据库更新时,迭代效率低下的问题。
第一方面,本发明实施例提供一种白样本数据库的处理方法,所述方法包括:
获取恶意样本数据库和白样本数据库;
利用分析模型对所述恶意样本数据库进行解析,得到恶意样本的向量特征;
利用所述分析模型对所述白样本数据库进行解析,得到白样本的向量特征;
对比所述恶意样本的向量特征和所述白样本的向量特征,得到目标特征值;
根据所述目标特征值对待识别样本数据进行识别,根据识别结果更新所述白样本数据库。
可选的,所述分析模型包括:静态分析模型和数据行为分析模型。
可选的,所述利用分析模型对所述恶意样本数据库进行解析,得到恶意样本的向量特征库具体为:
利用所述静态分析模型对所述恶意样本数据库中的样本数据进行解析,得到恶意样本数据的PE头信息、节点数量、数据运行依赖信息和字符串信息;
并且,利用所述数据行为分析模型对所述恶意样本数据库中的样本数据进行解析,得到恶意样本数据的进程数量、API数量和引用字符串信息;
根据所述恶意样本数据的PE头信息、节点数量、数据运行依赖信息、字符串信息、进程数量、API数量和引用字符串信息中的一个或多个,得到所述恶意样本的向量特征库。
可选的,所述利用分析模型对所述白样本数据库进行解析,得到白样本的向量特征库具体为:
利用所述静态分析模型对所述白样本数据库中的样本数据进行解析,得到白样本数据的PE头信息、节点数量、数据运行依赖信息和字符串信息;
并且,利用所述数据行为分析模型对所述白样本数据库中的样本数据进行解析,得到白样本数据的进程数量、API数量和引用字符串信息;
根据所述白样本数据的PE头信息、节点数量、数据运行依赖信息、字符串信息、进程数量、API数量和引用字符串信息中的一个或多个,得到所述白样本的向量特征库。
可选的,所述对比所述恶意样本的向量特征库和所述白样本的向量特征库,得到目标特征值具体为:
确定所述恶意样本的向量特征和所述白样本的向量特征是否相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安天科技集团股份有限公司,未经安天科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211246068.9/2.html,转载请声明来源钻瓜专利网。