[发明专利]一种安全报告文本的三元组抽取方法、装置及电子设备有效
| 申请号: | 202110316446.5 | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN112699665B | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 周子楠;董龙飞 | 申请(专利权)人: | 北京智源人工智能研究院 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/253;G06F40/242;G06F16/36 |
| 代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 安全 报告 文本 三元 抽取 方法 装置 电子设备 | ||
1.一种安全报告文本的三元组抽取方法,其特征在于,包括:
S1,获取安全报告文本;
S2,对所述安全报告文本进行分句处理;
S3,利用融合外部知识构建的分词和词性标注联合模型对所述分句处理的结果进行分词处理和词性标注,输出分词与词性标注结果;
其中,所述融合外部知识构建的分词和词性标注联合模型包括依次连接的编码层、双通道注意力模型、解码层和输出层;所述编码层包括基于安全知识图谱的K-Bert模型,所述双通道注意力模型包括安全自定义词典、词性标签以及通过NLP工具箱生成的句法信息,所述解码层包括条件随机场;
S4,基于依存句法分析方法对所述分词与词性标注结果进行句法分析,获得其中的语法成分以及所述语法成分之间的关系;所述S4包括:基于模型编码器内的Electra Small+BiAffine Parser+Eisner模型算法进行句法分析,所述Electra Small+BiAffine Parser+Eisner模型算法中的BiAffine Parser模型算法使用词性嵌入作为所述模型编码器的辅助输入进行句法分析;
S5,进行语义角色标注,获得给定谓语的论元;
S6,输出主谓宾形式的三元组;
其中在所述S3之后和所述S4之前,包括:
判断分词与词性标注结果中是否存在专有名词,若是,则将专有名词划分为主语或宾语,然后执行S4;若否,则执行S4;
所述S2包括:
将所述安全报告文本基于jieba库以标点符号进行分句处理,所述标点符号包括逗号、顿号、句号、叹号和/或问号;
所述安全自定义词典包括安全领域的专有名词,所述专有名词包括攻击模式、攻击类型、漏洞类型、威胁组织和/或黑客组织。
2.一种实施权利要求1所述安全报告文本的三元组抽取方法的三元组抽取装置,其特征在于,包括:
文本获取模块,获取安全报告文本;
分句处理模块,用于对所述安全报告文本进行分句处理;
分词处理与词性标注模块,用于利用融合外部知识构建的分词和词性标注联合模型对所述分句处理的结果进行分词处理和词性标注,输出分词与词性标注结果;
句法分析模块,用于基于依存句法分析方法对所述分词与词性标注结果进行句法分析,获得其中的语法成分以及所述语法成分之间的关系;
语义角色标注模块,用于进行语义角色标注,获得给定谓语的论元;
输出模块,用于输出主谓宾形式的三元组。
3.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如权利要求1所述的安全报告文本的三元组抽取方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1所述的安全报告文本的三元组抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110316446.5/1.html,转载请声明来源钻瓜专利网。





