[发明专利]一种预训练语言模型的生成、检测方法及装置在审

申请号：	202110436623.3	申请日：	2021-04-22
公开（公告）号：	CN113139187A	公开（公告）日：	2021-07-20
发明（设计）人：	刘洋	申请（专利权）人：	北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司
主分类号：	G06F21/56	分类号：	G06F21/56;G06F21/57;G06K9/62
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	曲鹏
地址：	100193 北京市海淀区东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种训练语言模型生成检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种预训练语言模型的生成方法，其特征在于，包括：

获取多个训练用的动态API指令序列；

分别对所获取的每个API指令序列按照预定的编码规则进行编码，得到多个API指令编码序列；

根据所述多个API指令编码序列对预设的语言模型进行训练，得到预训练语言模型。

2.根据权利要求1所述的预训练语言模型的生成方法，其特征在于，所述分别对所获取的每个API指令序列按照预定的编码规则进行编码，包括：

将所获取的每个API指令序列进行分段；其中，每段API指令序列中所含的API指令序列为单个相同的API连续序列；

分别将每段API指令序列按照预定的编码规则编码。

3.根据权利要求2所述的预训练语言模型的生成方法，其特征在于，所述分别将每段API指令序列按照预定的编码规则编码，包括：

对于每段API指令序列分别按照如下规则编码：

当该段中API指令出现1次时，将该段API指令序列编码为API_0；

当该段中API指令连续出现2至i次时，将该段API指令序列编码为API_1；

当该段中API连续出现i至j次时，将该段API指令序列编码为API_2；

当该段中API连续出现大于等于j时，将该段API指令序列编码为API_3；其中，i和j为正整数，i＜j。

4.根据权利要求1所述的预训练语言模型的生成方法，其特征在于，所述预设的语言模型为BERT模型；

所述根据所述多个API指令编码序列对预设的语言模型进行训练，包括：

分别对每个API指令编码序列中预定比例的API指令编码进行遮蔽后输入BERT模型，通过BERT模型对遮蔽的API指令编码进行预测，以训练BERT模型；其中，对一个API指令编码序列中预定比例的API指令编码进行遮蔽包括：

在该API指令编码序列中，随机选择API指令编码序列中预定比例的API指令编码；

对于所选择的API指令编码，按照n-gram模型进行随机动态遮蔽：

n＝1时，对于所选择的API指令编码进行随机动态遮蔽；

n大于1时，对于所选择的API指令编码及其相邻的n-1个API指令编码进行随机动态遮蔽；

n为1到5中任一个正整数，包括1和5；

其中，随机动态遮蔽是指随机按照多种预定模式中的一种进行遮蔽。

5.一种检测方法，其特征在于，包括：

获取待检测软件的动态API指令序列；

对所获取的动态API指令序列编码，得到待检测的API指令编码序列；

根据待检测的API指令编码序列和如权利要求1-4中任一项所述的方法所得到的预训练语言模型，得到检测结果。

6.根据权利要求5所述的检测方法，其特征在于，所述根据待检测的API指令编码序列和如权利要求1-4中任一项所述的方法所得到的预训练语言模型，得到检测结果，包括：

将API指令编码序列输入到权利要求1-4中任一项所述的方法所得到的预训练语言模型，得到API向量；

将所得到的API向量输入到分类模型，得到分类结果；

其中，所述分类模型是在按照如权利要求1-4任一项所述的方法得到的预训练语言模型中增加全连接层得到的；所述分类模型通过以下方式训练：

将多个对训练用的动态API指令序列编码得到的API指令编码序列输入如权利要求1-4任一项所述的方法得到的预训练语言模型，得到多个带标签的API向量；通过所述多个带标签的API向量对所述分类模型进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司，未经北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110436623.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种预训练语言模型的生成、检测方法及装置在审

专利文献下载