[发明专利]一种中文旅游领域知识图谱构建方法及系统有效
申请号: | 201611241944.3 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106777274B | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 张春霞;徐溥;彭飞;武嘉玉;王树良 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种旅游领域知识图谱的构建方法及系统,属于Web挖掘和智能信息处理领域。旅游领域知识图谱构建任务包括实体属性知识扩充子任务和实体属性值融合子任务。本发明采用一种混合式的实体属性知识扩充方法,集成了基于词汇场、监督学习、模式匹配,以及搜索引擎问答的实体属性知识扩充算法。对于实体属性值融合子任务,采用一种基于来源可信度的多值属性的属性值融合方法、一种基于内容可信度的固定型单值属性的属性值融合方法,以及一种基于学习排序的非固定型单值属性的属性值融合方法。本发明构建了结构化的旅游领域实体知识库,准确地表达了旅游领域实体的属性和属性值知识,提高了用户获取旅游领域知识的效率,具有广阔的应用前景。 | ||
搜索关键词: | 旅游领域 实体属性 图谱构建 可信度 融合子 构建 融合 知识库 智能信息处理 多值属性 模式匹配 搜索引擎 非固定 固定型 结构化 算法 排序 图谱 词汇 学习 中文 应用 监督 | ||
【主权项】:
1.一种旅游领域知识图谱的构建方法,其特征在于,包括以下步骤:步骤1,获取旅游领域知识图谱构建的语料;步骤2,对步骤1所得的语料采用混合式方法进行实体属性知识扩充;步骤3,对步骤2所得的实体属性知识进行实体属性值融合;步骤4,对步骤3所得结果基于可扩展标记语言XML构建旅游领域中文知识图谱;所述步骤2中混合式方法包括四个部分,分别是基于模式匹配的实体属性知识扩充、基于属性词汇场的实体属性知识扩充、基于监督学习的实体属性知识扩充,以及基于搜索引擎问答的属性知识扩充,具体如下:第一,采用基于模式匹配的方法进行实体属性知识扩充的具体内容如下:首先,人工构建旅游领域实体基本属性的属性知识扩充的原始模式;然后,利用《同义词词林》根据原始模式来学习属性知识扩充的扩展模式;最后,根据原始模式和扩展模式采用基于模式匹配的方法进行实体属性知识扩充,即获取三元组<实体,属性,属性值>;第二,采用基于词汇场的方法进行实体属性知识扩充的具体内容如下:首先,构建每个旅游领域实体基本属性a的词汇场;然后,对于所述语料中的每个句子,计算句子中包含属性a的词汇场中词语的总数m和平均权重w;若m和w大于给定阈值,则将该句子构建为扩充属性a的属性知识的候选句子;最后,根据属性a的属性值的词性从候选句子中提取旅游领域实体的属性a的属性值;第三,采用基于搜索引擎问答的方法进行实体属性知识扩充的具体内容如下:将形如“e a”作为百度搜索引擎的查询需求,其中e为旅游领域实体,a为属性名称,根据百度搜索引擎检索结果,抽取旅游领域实体e的属性a的属性值;第四,采用基于监督学习的方法进行实体属性知识扩充的具体内容如下:首先,根据属性值的词性从语料的句子中提取旅游领域实体的候选属性值;其次,对于提取出候选属性值的句子提取其如下分类特征:候选属性值v前后五个词语的词频、v前后各五个词语的词性、v的长度、v在词汇场中的权重、v前一词是否为标点符号、v前三个词是否包含否定词、v在句子中的起始位置、v在句子中的结束位置、v所在句子中是否包含属性触发词、v所在句子中属性触发词与v的距离;最后,基于训练好的分类器采用多分类器投票法来判别候选属性值是否为旅游领域实体的属性的属性值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611241944.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种地图围栏匹配方法
- 下一篇:基于多粒度语义块的实体属性和属性值提取方法