[发明专利]基于无监督预训练模型诱饵的制作和装置在审
申请号: | 202211011639.0 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115396175A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 杨志卫 | 申请(专利权)人: | 北京元支点信息安全技术有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N3/08;G06N3/04;G06F40/30 |
代理公司: | 北京贵都专利代理事务所(普通合伙) 11649 | 代理人: | 田志华 |
地址: | 100000 北京市东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 训练 模型 诱饵 制作 装置 | ||
1.基于无监督预训练模型诱饵的制作,其特征在于,包括如下步骤:
S1、准备相关语料库;
S2、数据预处理;
S3、加载预训练生成模型GPT;
S4、下游特定任务训练;
S5、根据关键词和真实环境描述生成内容;
S6、诱饵文件制作;
S7、生成诱饵文件程序绑定word、pdf、web;
S8、生成诱饵智能下发到终端。
2.根据权利要求1所述的一种基于无监督预训练模型诱饵的制作,其特征在于,所述S1以及S2中,接入真实网络环境的文件作为训练样本,采集数据信息,并对数据进行编码与分段。
3.根据权利要求2所述的一种基于无监督预训练模型诱饵的制作,其特征在于,所述数据信息包括企业域名、通讯录、互联网资产和信息泄露。
4.根据权利要求1所述的一种基于无监督预训练模型诱饵的制作,其特征在于,在S4的所述训练模型中,输入与生成内容相关的标题或提示自动生成诱饵内容。
5.根据权利要求1所述的一种基于无监督预训练模型诱饵的制作,其特征在于,S8中还包括如下步骤:
a、进程检测,规则转换,重定向;
b、记录诱饵增删改踪迹;
c、生成的诱饵内容不限于word、pdf文件或嵌入web服务,html,
或其他程序和网络环境中。
6.根据权利要求1所述的一种基于无监督预训练模型诱饵的制作,其特征在于,在S3中,对于语料u=(u1,.....un),GPT构建标准的语言模型:
同时使用Transformer Decoder模块加上前馈神经网络,最后使用softmax输出目标词的分布;
h0=UWe+Wp
7.根据权利要求6所述的一种基于无监督预训练模型诱饵的制作,其特征在于,对于通过第一阶段的预训练得到的语言模型,对于特定的任务进行fine-tuning;
对于一个监督数据集C,其中的数据为一个序列χ1,......,χm,和一个标签y;将序列输入预训练模型后得到输出向量hlm,接着使用一个线性层来预测标签;
需极大化的似然函数为:
8.根据权利要求1所述的一种基于无监督预训练模型诱饵的制作,其特征在于,所述本发明中使用GPT-2模型,是GPT的升级版,其中GPT-2构建了一个数据集WebText,共有八百万文档,40GB。
9.根据权利要求9所述的一种基于无监督预训练模型诱饵的制作,其特征在于,所述GPT-2模型使用了庞大的网络构架,最大48层Transformer,1542M参数,1600维。
10.一种应用权利要求1-9其中任一一项的无监督预训练模型诱饵装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京元支点信息安全技术有限公司,未经北京元支点信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211011639.0/1.html,转载请声明来源钻瓜专利网。