[发明专利]气象海洋非结构化文本知识构建方法、装置及电子设备有效
申请号: | 202310722007.3 | 申请日: | 2023-06-19 |
公开(公告)号: | CN116450856B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 徐焱;王宇翔;孙万有;何思远 | 申请(专利权)人: | 航天宏图信息技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/242;G06F40/289 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 丁银泽 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 气象 海洋 结构 文本 知识 构建 方法 装置 电子设备 | ||
1.一种气象海洋非结构化文本知识构建方法,其特征在于,包括:
获取待构建的气象海洋非结构化文本集;
根据所述气象海洋非结构化文本集确定气象海洋环境领域的目标核心概念;
基于所述目标核心概念对所述气象海洋非结构化文本集进行知识实体抽取,以确定目标知识实体;
通过预先训练的关系识别模型,基于所述气象海洋非结构化文本集和所述目标知识实体,识别所述目标知识实体之间的实体关系;
基于所述目标知识实体和所述目标知识实体之间的所述实体关系,构建所述气象海洋环境领域的知识图谱;
根据所述气象海洋非结构化文本集确定气象海洋环境领域的目标核心概念,包括:
按照气象海洋环境领域中的多个子领域,将所述气象海洋非结构化文本集划分为每个所述子领域对应的非结构化文本子集;
基于每个所述子领域对应的所述非结构化文本子集,获取初始核心概念;其中,所述初始核心概念是通过对每个所述子领域对应的所述非结构化文本子集进行专家初步提取和专家交叉提取得到的;
爬取每个所述初始核心概念匹配的目标解释页面中的解释文本;
对每个所述解释文本进行分词处理得到第一分词数据集,并确定所述第一分词数据集中的每个第一分词对应的第一词频;
如果所述第一分词对应的所述第一词频大于预设词频阈值,将所述第一分词补入所述初始核心概念,以得到所述气象海洋环境领域的目标核心概念;
基于所述目标核心概念对所述气象海洋非结构化文本集进行知识实体抽取,以确定目标知识实体,包括:
以所述目标核心概念作为自定义词典,对所述气象海洋非结构化文本集进行分词处理,得到第二分词数据集;其中,所述第二分词数据集包括分词列表和句法关系,所述句法关系包括至少一个谓词和每个所述谓词对应的若干个论元;
以所述分词列表作为触发词匹配数据源,以所述句法关系作为触发词匹配规则,对所述气象海洋非结构化文本集进行知识实体抽取,以确定初始知识实体;
对所述初始知识实体进行筛选得到目标知识实体。
2.根据权利要求1所述的气象海洋非结构化文本知识构建方法,其特征在于,以所述分词列表作为触发词匹配数据源,以所述句法关系作为触发词匹配规则,对所述气象海洋非结构化文本集进行知识实体抽取,以确定初始知识实体,包括:
对于每个所述分词列表,如果该分词列表中的分句信息包含所述目标核心概念,则从该分词列表匹配的所述句法关系中,确定所述目标核心概念所属的第一目标谓词;
将所述第一目标谓词对应的每个所述论元确定为所述目标核心概念对应的第一相关论元,并将所述第一相关论元存入一阶知识词汇集;
对于每个所述分词列表,如果该分词列表中的分句信息包含所述一阶知识词汇集中的一阶知识词汇,则从该分词列表匹配的所述句法关系中,确定所述一阶知识词汇所属的第二目标谓词;
将所述第二目标谓词对应的每个所述论元确定为所述一阶知识词汇对应的第二相关论元,并将所述第二相关论元存入二阶知识词汇集;
对所述目标核心概念、所述一阶知识词汇和所述二阶知识词汇进行去重处理,得到初始知识实体。
3.根据权利要求2所述的气象海洋非结构化文本知识构建方法,其特征在于,将所述第一相关论元存入一阶知识词汇集,包括:
对所述第一目标谓词对应的每个所述第一相关论元进行分词处理;
如果所述分词处理成功,将所述第一相关论元中的名词存入一阶知识词汇集;
如果所述分词处理未成功,将所述第一相关论元存入所述一阶知识词汇集。
4.根据权利要求1所述的气象海洋非结构化文本知识构建方法,其特征在于,对所述初始知识实体进行筛选得到目标知识实体,包括:
对于所述初始知识实体中每个第二分词,确定该第二分词在所述气象海洋非结构化文本集中出现的第二词频;
确定所述气象海洋非结构化文本集的总文本数量,以及确定所述气象海洋非结构化文本集中包含该第二分词的气象海洋非结构化文本的文本数量,将所述总文本数量与所述文本数量的对数比确定为该第二分词的逆文档频率;
将该第二分词的所述第二词频与所述逆文档频率的乘积,确定为该第二分词的分词重要性;
如果所述分词重要性大于预设重要性阈值,则将该第二分词确定为目标知识实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏图信息技术股份有限公司,未经航天宏图信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310722007.3/1.html,转载请声明来源钻瓜专利网。