[发明专利]一种预训练语言模型的生成、检测方法及装置在审

申请号：	202110436623.3	申请日：	2021-04-22
公开（公告）号：	CN113139187A	公开（公告）日：	2021-07-20
发明（设计）人：	刘洋	申请（专利权）人：	北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司
主分类号：	G06F21/56	分类号：	G06F21/56;G06F21/57;G06K9/62
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	曲鹏
地址：	100193 北京市海淀区东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种训练语言模型生成检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种预训练语言模型的生成、检测方法及装置，包括：获取多个训练用的动态API指令序列；分别对所获取的每个API指令序列按照预定的编码规则进行编码，得到多个API指令编码序列；根据所述多个API指令编码序列对预设的语言模型进行训练，得到预训练语言模型。

技术领域

本发明涉及网络安全领域，尤其涉及一种预训练语言模型的生成、检测方法及装置。

背景技术

近些年来，在大量不法资金的助力下，黑灰产业蓬勃发展，市值已高达千亿元规模。在此基础上，黑客根据现有反病毒软件存在的漏洞，研发出各种逃避反病毒软件的工具。而如果不能正确识别恶意软件，就可能会导致恶意软件大肆传播，就会给整个社会和国家带来非常巨大的危害。所以，检测恶意软件就显得至关重要。

在检测恶意软件的应用中，早期通过特征码和人工规则的方法对软件进行静态检测。随着技术的发展，动态检测方法也开始崭露头角，它的本质是把软件放置沙箱中模拟运行，得到运行后的API指令序列(文本信息)，然后通过一定的方法对API指令序列进行分析和检测。一些技术中，通过传统机器学习的方法来进行动态检测，即需要人工进行提取特征，然后使用SVM分类器进行分类。该方法存在着几个弊端，如人工提取特征不仅费时费力，很难满足模型快速迭代的需求，而且手动的特征工程很难提取到有效的组合特征；另外，上述方法仅仅利用了高质量的标注数据，而未对海量的无标注数据进行挖掘。

发明内容

为了解决上述技术问题，本公开提供了一种预训练语言模型的生成及装置，可以通过对API指令序列进行编码，以用于预训练语言模型。

本公开提供了一种检测方法及装置，可以利用预训练语言模型对恶意软件进行检测，提高网络安全能力。

本公开提供了一种预训练语言模型的生成方法，包括：

获取多个训练用的动态API指令序列；

分别对所获取的每个API指令序列按照预定的编码规则进行编码，得到多个API指令编码序列；

根据所述多个API指令编码序列对预设的语言模型进行训练，得到预训练语言模型。

一种示例性的实施例中，所述分别对所获取的每个API指令序列按照预定的编码规则进行编码，包括：

将所获取的每个API指令序列进行分段；其中，每段API指令序列中所含的API指令序列为单个相同的API连续序列；

将每段API指令序列分别按照预定的编码规则编码。

一种示例性的实施例中，所述将每段API指令序列分别按照预定的编码规则编码，包括：

对于每段API指令序列分别按照如下规则编码：

当该段中API指令出现1次时，将该段API指令序列编码为API_0；

当该段中API指令连续出现2至i次时，将该段API指令序列编码为API_1；

当该段中API连续出现i至j次时，将该段API指令序列编码为API_2；

当该段中API连续出现大于等于j时，将该段API指令序列编码为API_3；其中，i和j为正整数，i＜j。

一种示例性的实施例中，所述预设的语言模型为BERT模型；

所述根据所述多个API指令编码序列对预设的语言模型进行训练，包括：

分别对每个API指令编码序列中预定比例的API指令编码进行遮蔽后输入BERT模型，通过BERT模型对遮蔽的API指令编码进行预测，以训练BERT模型；其中，对一个API指令编码序列中预定比例的API指令编码进行遮蔽包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司，未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110436623.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种预训练语言模型的生成、检测方法及装置在审

专利文献下载