[发明专利]基于WEB资源的本体概念层次获取方法、系统及存储介质在审
申请号: | 202011140231.4 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112364175A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 张凯;刘杰;周建设;朱海平 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web 资源 本体 概念 层次 获取 方法 系统 存储 介质 | ||
本申请提出了一种基于WEB资源的本体概念层次获取方法,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。本申请的方案获取的层次从属关系的准确率明显优于现有技术,为实现人机之间及机器之间的语义信息交互打下了坚实的基础。
技术领域
本申请涉及概念层次分析技术领域,具体而言,涉及一种基于WEB资源的本体概念层次获取方法、系统及计算机存储介质。
背景技术
领域本体是对特定领域共享概念模型明确、规范的说明,以术语集及术语间的关系反映该领域的知识系统,可用于实现人机之间及机器之间的语义信息交互。目前,领域本体已被广泛应用于诸多信息应用领域,如信息检索、信息抽取、及问答系统等。
现有技术中存在一种层次化的本体构建模型,把本体构建分解为术语识别、同义词消解、概念获取、概念层次关系的获取、关系以及公理六个层次。这种层次化的本体构建模型虽然在一定程度上可以降低本体工程的复杂性,但是仍然无法做到快速高效的获取领域本体。
于是,如何快速、高效地获取领域本体依然是个亟待解决的难题。
发明内容
为了解决上述检索领域现有技术中存在的技术问题,本申请提供了一种基于WEB资源的本体概念层次获取方法、系统及计算机存储介质。
本申请的第一方面提供了一种基于WEB资源的本体概念层次获取方法,其特征在于,所述方法包括:
S1、利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
S2、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
S3、在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
优选地,所述S1中,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料,包括:
将集合中的概念对(ci,cj)提交给搜索引擎,得到前k条返回结果的摘要文本集T1以及搜索引擎针对该概念对提供的查询推荐条目T2;
针对由概念对(ci,cj)得到的文本集T1和T2,分别从中查找同时包含概念ci和cj的句子,存入关系语境集context1和context2中;
分别对关系语境集context1和context2中的关系语境进行分词和词性标注,将两者中出现的名词、动词、副词和连词存入W1和W2,W=W1∪W2,统计W中每个词语在对应的关系语境集中出现的频次;
计算W中候选线索词wi与其表示的层次关系ri的相关度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011140231.4/2.html,转载请声明来源钻瓜专利网。