[发明专利]一种预训练语言模型的生成、检测方法及装置在审
申请号: | 202110436623.3 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113139187A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 刘洋 | 申请(专利权)人: | 北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F21/57;G06K9/62 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 曲鹏 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 语言 模型 生成 检测 方法 装置 | ||
本发明实施例公开了一种预训练语言模型的生成、检测方法及装置,包括:获取多个训练用的动态API指令序列;分别对所获取的每个API指令序列按照预定的编码规则进行编码,得到多个API指令编码序列;根据所述多个API指令编码序列对预设的语言模型进行训练,得到预训练语言模型。
技术领域
本发明涉及网络安全领域,尤其涉及一种预训练语言模型的生成、检测方法及装置。
背景技术
近些年来,在大量不法资金的助力下,黑灰产业蓬勃发展,市值已高达千亿元规模。在此基础上,黑客根据现有反病毒软件存在的漏洞,研发出各种逃避反病毒软件的工具。而如果不能正确识别恶意软件,就可能会导致恶意软件大肆传播,就会给整个社会和国家带来非常巨大的危害。所以,检测恶意软件就显得至关重要。
在检测恶意软件的应用中,早期通过特征码和人工规则的方法对软件进行静态检测。随着技术的发展,动态检测方法也开始崭露头角,它的本质是把软件放置沙箱中模拟运行,得到运行后的API指令序列(文本信息),然后通过一定的方法对API指令序列进行分析和检测。一些技术中,通过传统机器学习的方法来进行动态检测,即需要人工进行提取特征,然后使用SVM分类器进行分类。该方法存在着几个弊端,如人工提取特征不仅费时费力,很难满足模型快速迭代的需求,而且手动的特征工程很难提取到有效的组合特征;另外,上述方法仅仅利用了高质量的标注数据,而未对海量的无标注数据进行挖掘。
发明内容
为了解决上述技术问题,本公开提供了一种预训练语言模型的生成及装置,可以通过对API指令序列进行编码,以用于预训练语言模型。
本公开提供了一种检测方法及装置,可以利用预训练语言模型对恶意软件进行检测,提高网络安全能力。
本公开提供了一种预训练语言模型的生成方法,包括:
获取多个训练用的动态API指令序列;
分别对所获取的每个API指令序列按照预定的编码规则进行编码,得到多个API指令编码序列;
根据所述多个API指令编码序列对预设的语言模型进行训练,得到预训练语言模型。
一种示例性的实施例中,所述分别对所获取的每个API指令序列按照预定的编码规则进行编码,包括:
将所获取的每个API指令序列进行分段;其中,每段API指令序列中所含的API指令序列为单个相同的API连续序列;
将每段API指令序列分别按照预定的编码规则编码。
一种示例性的实施例中,所述将每段API指令序列分别按照预定的编码规则编码,包括:
对于每段API指令序列分别按照如下规则编码:
当该段中API指令出现1次时,将该段API指令序列编码为API_0;
当该段中API指令连续出现2至i次时,将该段API指令序列编码为API_1;
当该段中API连续出现i至j次时,将该段API指令序列编码为API_2;
当该段中API连续出现大于等于j时,将该段API指令序列编码为API_3;其中,i和j为正整数,i<j。
一种示例性的实施例中,所述预设的语言模型为BERT模型;
所述根据所述多个API指令编码序列对预设的语言模型进行训练,包括:
分别对每个API指令编码序列中预定比例的API指令编码进行遮蔽后输入BERT模型,通过BERT模型对遮蔽的API指令编码进行预测,以训练BERT模型;其中,对一个API指令编码序列中预定比例的API指令编码进行遮蔽包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司,未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110436623.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置
- 下一篇:一种比特币挖矿机多功能的散热机架