[发明专利]基于小样本学习的网络协议实体抽取方法与系统在审
申请号: | 202110660203.3 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113343697A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 李守斌;常志远;胡军;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06K9/62;G06N20/10 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 学习 网络 协议 实体 抽取 方法 系统 | ||
本发明提出了一种基于小样本学习的网络协议实体抽取方法与系统,该方法仅需要少量的带标注的RFC文档样本,即可实现对大量未标注的RFC文档进行网络协议实体抽取且保持较高的识别精度。该方法首先尽可能多的挖掘RFC文档中潜在网络协议实体,其次对已识别的潜在的网络协议实体进行精准再识别。通过实验表明,利用5篇人工标注的RFC文档来训练本发明的模型,网络协议实体抽取的准确率达到了88.4%,该方法较现有方法在网络协议实体抽取方面具有较高的精度和较好的强鲁棒性,同时对未在训练集中出现过的网络协议实体同样具有较好的辨识能力。本发明有助于在未来实现网络协议的自动化分析,为计算机网络方面的研究提供帮助。
技术领域
本发明属于计算机技术领域,提出了一种基于小样本学习的网络协议实体抽取方法和系统。该方法仅需要少量的带标注的RFC文档样本,即可实现对大量未标注的RFC文档进行网络协议实体抽取且保持较高的识别精度,对计算机网络领域的研究有着重要的意义。
背景技术
随着互联网时代的发展,网络安全问题的重要性与日剧增,而网络协议作为互联网中的基础设施,加强对它的深入分析显得尤为重要。目前已经有很多针对网络协议的研究,比如利用自动化模糊测试挖掘协议漏洞,以提升协议的安全性;利用网络协议识别算法,以预防网络攻击,从而进一步提高网络的安全性等。在这些研究中,基于知识的网络协议分析显得尤为重要。研究者通过知识图谱把复杂的领域知识通过数据挖掘、信息处理、知识计量和图形绘制等方式,把所有不同种类的信息连接在一起,形成一个关系网络并从“关系”的角度去分析问题,解释知识领域的动态发展规律而网络协议实体抽取是构建网络协议知识图谱的关键一环。RFC(Request For Comments)是一系列以编号排定的文件,文件收集了有关互联网的网络协议相关信息,以及UNIX和互联网社区的软件文件,基本的互联网通信协议都有在RFC文件内详细说明。RFC的成稿过程时间跨度长,参与撰写的组织多,包含的网络协议种类多,导致RFC的文档成文结构不规范不统一,这给网络协议实体的自动化抽取工作带来了极大的困难。
发明内容
针对上述问题,本发明提出一种基于小样本学习的网络协议实体抽取方法与系统,目标是通过充分学习样本的语义特征,在小样本上训练的效果与在大样本上训练的效果一致,可以准确地抽取网络协议实体,且具有高的鲁棒性,同时对未在训练样本中出现过的网络协议实体同样具有较高的抽取精度。
本发明采用的技术方案如下:
一种基于小样本学习的网络协议实体抽取方法,包括以下步骤:
1)根据专家知识构建网络协议文档集;
2)从所述网络协议文档集中提取网络协议实体包含的字段和描述信息,由字段和描述信息构成网络协议信息数据集;
3)对网络协议信息数据集进行分块处理,构成网络协议文本分块集;
4)将传统机器学习模型在所述网络协议文本分块集上进行训练,得到训练后的潜在网络协议实体分类器;
5)利用所述网络协议文本分块集,训练基于神经网络的网络协议实体精准识别模型;
6)将所述潜在网络协议实体分类器和所述网络协议实体精准识别模型融合,得到基于小样本学习的网络协议实体抽取模型;
7)基于所述基于小样本学习的网络协议实体抽取模型,对待进行实体抽取的网络协议文本进行网络协议实体抽取。
进一步地,步骤1)使用启发式规则或工具包对所述网络协议文档集(即RFC文档集)中的文档做预处理,其步骤包括:
通过模式匹配的方法去除文本中的页眉和页脚;
多数图表由符号“+-”或其他特殊字符组成,先在文本中定位到该符号所在行,然后从此行开始往下删除含有特殊符号的每行,直到单行单词稀疏度高于阈值时停止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110660203.3/2.html,转载请声明来源钻瓜专利网。