[发明专利]气象海洋非结构化文本知识构建方法、装置及电子设备有效
申请号: | 202310722007.3 | 申请日: | 2023-06-19 |
公开(公告)号: | CN116450856B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 徐焱;王宇翔;孙万有;何思远 | 申请(专利权)人: | 航天宏图信息技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/242;G06F40/289 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 丁银泽 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 气象 海洋 结构 文本 知识 构建 方法 装置 电子设备 | ||
本发明提供了一种气象海洋非结构化文本知识构建方法、装置及电子设备,包括:获取待构建的气象海洋非结构化文本集;根据气象海洋非结构化文本集确定气象海洋环境领域的目标核心概念;基于目标核心概念对气象海洋非结构化文本集进行知识实体抽取,以确定目标知识实体;通过关系识别模型基于气象海洋非结构化文本集和目标知识实体,识别目标知识实体之间的实体关系;基于目标知识实体和目标知识实体之间的实体关系,构建气象海洋环境领域的知识图谱。本发明可以智能化抽取庞杂非结构化文本中的关键知识信息,构建图谱关系,进而提高目标信息获取的能力和检索速度,有助于实现气象海洋环境领域的知识共享,以便于更加全面地研究气象海洋环境知识。
技术领域
本发明涉及知识图谱技术领域,尤其是涉及一种气象海洋非结构化文本知识构建方法、装置及电子设备。
背景技术
随着科学技术的发展,知识图谱的应用越来越广泛。知识图谱具有强大的数据描述能力,为智能化信息应用提供了技术基础,其可以以图形化的方式向用户呈现结构化知识。然而,气象海洋环境知识具有非结构化、多源异构、时空复杂、语义复杂等特性,目前还尚未有成熟、全面的气象海洋环境领域知识图谱应用,如此导致气象海洋环境领域相关知识的检索速度较慢,阻碍了气象海洋环境领域的知识共享,不能更加全面的研究气象海洋环境知识。
发明内容
有鉴于此,本发明的目的在于提供一种气象海洋非结构化文本知识构建方法、装置及电子设备,可以智能化抽取庞杂非结构化文本中的关键知识信息,构建图谱关系,进而提高目标信息获取的能力和检索速度,有助于实现气象海洋环境领域的知识共享,以便于更加全面地研究气象海洋环境知识。
第一方面,本发明实施例提供了一种气象海洋非结构化文本知识构建方法,包括:
获取待构建的气象海洋非结构化文本集;
根据所述气象海洋非结构化文本集确定气象海洋环境领域的目标核心概念;
基于所述目标核心概念对所述气象海洋非结构化文本集进行知识实体抽取,以确定目标知识实体;
通过预先训练的关系识别模型,基于所述气象海洋非结构化文本集和所述目标知识实体,识别所述目标知识实体之间的实体关系;
基于所述目标知识实体和所述目标知识实体之间的所述实体关系,构建所述气象海洋环境领域的知识图谱。
在一种实施方式中,根据所述气象海洋非结构化文本集确定气象海洋环境领域的目标核心概念,包括:
按照气象海洋环境领域中的多个子领域,将所述气象海洋非结构化文本集划分为每个所述子领域对应的非结构化文本子集;
基于每个所述子领域对应的所述非结构化文本子集,获取初始核心概念;其中,所述初始核心概念是通过对每个所述子领域对应的所述非结构化文本子集进行专家初步提取和专家交叉提取得到的;
爬取每个所述初始核心概念匹配的目标解释页面中的解释文本;
对每个所述解释文本进行分词处理得到第一分词数据集,并确定所述第一分词数据集中的每个第一分词对应的第一词频;
如果所述第一分词对应的所述第一词频大于预设词频阈值,将所述第一分词补入所述初始核心概念,以得到所述气象海洋环境领域的目标核心概念。
在一种实施方式中,基于所述目标核心概念对所述气象海洋非结构化文本集进行知识实体抽取,以确定目标知识实体,包括:
以所述目标核心概念作为自定义词典,对所述气象海洋非结构化文本集进行分词处理,得到第二分词数据集;其中,所述第二分词数据集包括分词列表和句法关系,所述句法关系包括至少一个谓词和每个所述谓词对应的若干个论元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏图信息技术股份有限公司,未经航天宏图信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310722007.3/2.html,转载请声明来源钻瓜专利网。