[发明专利]一种应用在网络安全领域的实体链接方法有效
申请号: | 202110344549.2 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112989832B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 陆以勤;谢树禄;覃健诚;李智鹏;陈帅豪;洪炜妍;陈嘉睿 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/33;G06N3/0442;G06N3/045;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 雷芬芬 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用 网络安全 领域 实体 链接 方法 | ||
1.一种应用在网络安全领域的实体链接方法,其特征在于,包括:
步骤一:构建网络安全领域的候选实体查询引用表,并利用实体查询引用表生成安全候选实体;
步骤二:利用分词工具对实体提及对应的待链接安全文本进行分词,将分词后的待链接安全文本输入已训练好的Word2vec模型,Word2vec模型输出待链接安全文本的第一字向量和第一词向量,同时生成对应的第一位置向量,将第一字向量、第一词向量和第一位置向量相加得到第一联合嵌入向量;
步骤三:利用分词工具对安全候选实体对应的来自安全知识库里的安全文本进行分词,将分词后的安全文本输入已训练好的Word2vec模型,Word2vec模型输出安全文本的第二字向量和第二词向量,同时生成对应的第二位置向量,将第二字向量、第二词向量和第二位置向量相加得到第二联合嵌入向量;
步骤四:依次将第一联合嵌入向量、第二联合嵌入向量输入到BiLstm模型中,获取包含第一上下文语义信息的第一安全文本向量、包含第二上下文语义信息的第二安全文本向量;将第一安全文本向量、第二安全文本向量分别输入到CNN模型中,分别得到安全文本的第一特征信息和第二特征信息;
步骤五:在第一特征信息和第二特征信息中均引入神经网络的Attention机制,增强相应的安全文本特征;
步骤六:对实体提及对应的增强后得到的安全文本向量和候选实体对应的增强后得到的安全文本向量进行余弦相似度计算,并对各个计算结果的得分进行降序排列,将得分最高的候选实体链接到实体提及中去。
2.如权利要求1所述的一种应用在网络安全领域的实体链接方法,其特征在于,Word2vec模型的训练包括:
获取网络安全文本,并进行清洗;
利用分词工具对安全文本进行分词,将分词后的安全文本的输入Word2vec模型进行预训练。
3.如权利要求1所述的一种应用在网络安全领域的实体链接方法,其特征在于,对网络安全文本进行清洗包括格式转化、繁简转化和大小写转化。
4.如权利要求1所述的一种应用在网络安全领域的实体链接方法,其特征在于,在步骤二和步骤三,进行联合嵌入的公式为:
VJoint=Vchar+Vword+Vposition
其中VJoint表示联合向量、Vchar表示字符向量、Vword表示词向量和Vposition表示位置向量。
5.如权利要求1所述的一种应用在网络安全领域的实体链接方法,其特征在于,步骤六的两个安全文本特征的余弦相似度的计算公式为:
其中,A和B代表的是两个n维的向量,在这其中A向量是[A1,A2,A3,...,An]和B向量是[B1,B2,B3,...,Bn],θ代表的是A与B的向量空间夹角。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110344549.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卡膜固定及输送平台
- 下一篇:一种全天候批处理技术方法