[发明专利]基于小样本学习的网络协议实体抽取方法与系统在审
| 申请号: | 202110660203.3 | 申请日: | 2021-06-15 |
| 公开(公告)号: | CN113343697A | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 李守斌;常志远;胡军;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06K9/62;G06N20/10 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 样本 学习 网络 协议 实体 抽取 方法 系统 | ||
1.一种基于小样本学习的网络协议实体抽取方法,其步骤包括:
根据专家知识构建网络协议文档集;
从所述网络协议文档集中提取网络协议实体包含的字段和描述信息,由字段和描述信息构成网络协议信息数据集;
对所述网络协议信息数据集进行分块处理,构成网络协议文本分块集;
在所述网络协议文本分块集上训练机器学习模型,得到训练后的潜在网络协议实体分类器;
利用所述网络协议文本分块集,训练基于神经网络的网络协议实体精准识别模型;
将所述潜在网络协议实体分类器和所述网络协议实体精准识别模型融合,得到基于小样本学习的网络协议实体抽取模型;
基于所述基于小样本学习的网络协议实体抽取模型,对待进行实体抽取的网络协议文本进行网络协议实体抽取。
2.如权利要求1所述的方法,其特征在于,使用启发式规则或工具包对所述网络协议文档集中的文档做预处理,其步骤包括:
通过模式匹配的方法去除文本中的页眉和页脚;
多数图表由符号“+-”或其他特殊字符组成,先在文本中定位到该符号所在行,然后从此行开始往下删除含有特殊符号的每行,直到单行单词稀疏度高于阈值时停止。
3.如权利要求1所述的方法,其特征在于,所述对所述网络协议信息数据集进行分块处理,包括:运用“CoreNLP”包中的NLP工具将文本中每句话转换为语法树结构,根据语法树可将每句话切分为多个语法短语。
4.如权利要求1所述的方法,其特征在于,将所述分块处理后的网络协议文本分块集中的描述信息划分为正负样本,样本向量化表示后作为所述机器学习模型的输入,生成所述潜在网络协议实体分类器。
5.如权利要求1所述的方法,其特征在于,所述的潜在网络协议实体中大部分负样本包含的十二类词性,正样本中并不包含,运用工具包抽取网络协议实体对应的词性,去除含有上述词性的实体;所述十二类词性包括副词、动词不定式、单数动词、感叹词、量词、情态动词、介词、动名词、条件连接词、非第三人称单数、动词原形、名词所有格。
6.如权利要求1所述的方法,其特征在于,将所述网络协议文本分块集中的网络协议文本分块通过词嵌入处理,按结果集划分后输入网络协议实体精准识别模型中进行训练,利用神经网络生成对协议头字段敏感的网络协议实体精准识别模型;所述网络协议实体精准识别模型包括线性聚合层和非线性层;通过非线性层保证字段信息的描述性语义信息被单独检查,从而保留字段信息的有价值信息;通过线性聚合层将所有隐藏状态即来自非线性层的中间结果连接起来,以充分地利用网络的推断结果。
7.如权利要求1所述的方法,其特征在于,所述基于所述基于小样本学习的网络协议实体抽取模型,对待进行实体抽取的网络协议文本进行网络协议实体抽取,包括:
将待进行实体抽取的网络协议文本进行预处理;
将预处理后的协议文本分块集输入所述潜在网络协议实体分类器,得到潜在网络协议实体集;
将得到的潜在网络协议实体集输入所述网络协议实体精准识别模型;
将经过网络协议实体精准识别模型后的结果输入分类层进行分类,得到抽取实体结果。
8.一种基于小样本学习的网络协议实体抽取系统,其特征在于,包括:
模型模块,包含权利要求1~7中任一权利要求所述方法构建的网络协议实体抽取模型,该模型接收待进行抽取实体的网络协议文本作为输入;
融合模块,用于将潜在网络协议实体分类器和所述网络协议实体精准识别模型融合,得到网络协议实体抽取模型;
分类模块,用于网络协议实体抽取模型的结果输入分类层进行分类,得到实体抽取结果。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序执行权利要求1-7中任一权利要求所述的方法。
10.一种电子装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-7中任一权利要求所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110660203.3/1.html,转载请声明来源钻瓜专利网。





