[发明专利]一种预训练语言模型的生成、检测方法及装置在审

专利信息
申请号: 202110436623.3 申请日: 2021-04-22
公开(公告)号: CN113139187A 公开(公告)日: 2021-07-20
发明(设计)人: 刘洋 申请(专利权)人: 北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司
主分类号: G06F21/56 分类号: G06F21/56;G06F21/57;G06K9/62
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 曲鹏
地址: 100193 北京市海淀区东*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 训练 语言 模型 生成 检测 方法 装置
【说明书】:

发明实施例公开了一种预训练语言模型的生成、检测方法及装置,包括:获取多个训练用的动态API指令序列;分别对所获取的每个API指令序列按照预定的编码规则进行编码,得到多个API指令编码序列;根据所述多个API指令编码序列对预设的语言模型进行训练,得到预训练语言模型。

技术领域

本发明涉及网络安全领域,尤其涉及一种预训练语言模型的生成、检测方法及装置。

背景技术

近些年来,在大量不法资金的助力下,黑灰产业蓬勃发展,市值已高达千亿元规模。在此基础上,黑客根据现有反病毒软件存在的漏洞,研发出各种逃避反病毒软件的工具。而如果不能正确识别恶意软件,就可能会导致恶意软件大肆传播,就会给整个社会和国家带来非常巨大的危害。所以,检测恶意软件就显得至关重要。

在检测恶意软件的应用中,早期通过特征码和人工规则的方法对软件进行静态检测。随着技术的发展,动态检测方法也开始崭露头角,它的本质是把软件放置沙箱中模拟运行,得到运行后的API指令序列(文本信息),然后通过一定的方法对API指令序列进行分析和检测。一些技术中,通过传统机器学习的方法来进行动态检测,即需要人工进行提取特征,然后使用SVM分类器进行分类。该方法存在着几个弊端,如人工提取特征不仅费时费力,很难满足模型快速迭代的需求,而且手动的特征工程很难提取到有效的组合特征;另外,上述方法仅仅利用了高质量的标注数据,而未对海量的无标注数据进行挖掘。

发明内容

为了解决上述技术问题,本公开提供了一种预训练语言模型的生成及装置,可以通过对API指令序列进行编码,以用于预训练语言模型。

本公开提供了一种检测方法及装置,可以利用预训练语言模型对恶意软件进行检测,提高网络安全能力。

本公开提供了一种预训练语言模型的生成方法,包括:

获取多个训练用的动态API指令序列;

分别对所获取的每个API指令序列按照预定的编码规则进行编码,得到多个API指令编码序列;

根据所述多个API指令编码序列对预设的语言模型进行训练,得到预训练语言模型。

一种示例性的实施例中,所述分别对所获取的每个API指令序列按照预定的编码规则进行编码,包括:

将所获取的每个API指令序列进行分段;其中,每段API指令序列中所含的API指令序列为单个相同的API连续序列;

将每段API指令序列分别按照预定的编码规则编码。

一种示例性的实施例中,所述将每段API指令序列分别按照预定的编码规则编码,包括:

对于每段API指令序列分别按照如下规则编码:

当该段中API指令出现1次时,将该段API指令序列编码为API_0;

当该段中API指令连续出现2至i次时,将该段API指令序列编码为API_1;

当该段中API连续出现i至j次时,将该段API指令序列编码为API_2;

当该段中API连续出现大于等于j时,将该段API指令序列编码为API_3;其中,i和j为正整数,i<j。

一种示例性的实施例中,所述预设的语言模型为BERT模型;

所述根据所述多个API指令编码序列对预设的语言模型进行训练,包括:

分别对每个API指令编码序列中预定比例的API指令编码进行遮蔽后输入BERT模型,通过BERT模型对遮蔽的API指令编码进行预测,以训练BERT模型;其中,对一个API指令编码序列中预定比例的API指令编码进行遮蔽包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司,未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110436623.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top