[发明专利]一种基于领域知识图谱的问答系统及其构建方法在审
申请号: | 201910767579.7 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110555153A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 刘波;龙小玲 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/951;G06F16/332;G06F16/36;G06F17/27 |
代理公司: | 44245 广州市华学知识产权代理有限公司 | 代理人: | 刘巧霞 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答系统 依存关系 三元组 查询 图谱数据库 数据库 查询语句 语义图 构建 抽取 词语 后台处理模块 前端展示模块 答案 句法分析 领域知识 图谱构建 依赖关系 有效信息 表生成 互连网 遍历 分词 句子 图谱 存储 互联网 返回 转换 创建 | ||
本发明公开了一种基于领域知识图谱的问答系统构建方法,包括步骤:从互联网中爬取给定领域的信息,抽取信息中的三元组,将三元组插入到图数据库中进行存储;对用户输入的问句进行分词、句法分析,获得问句中各词语之间的依存关系表,依存关系指一个句子中各词语之间的依赖关系;通过遍历依存关系表生成查询语义图,并将查询语义图转换为图数据库的查询语句;最终用查询语句查询图数据库,得到答案。本发明还提出一种采用上述方法构建的问答系统,包括知识图谱构建模块、问答模块、后台处理模块和前端展示模块。本发明面向给定领域,爬取互连网中有效信息,抽取三元组创建知识图谱数据库,问答系统通过查询知识图谱数据库,返回准确且简洁的答案。
技术领域
本发明涉及知识图谱与自动问答系统研究领域,特别涉及一种基于领域知识图谱的问答系统及其构建方法。
背景技术
随着大数据时代的到来,互联网上的信息呈爆炸式增长,仅含有网页与网页之间链接的传统万维网已经不能满足人们快速获取信息的需求,人们希望以更智能的方式去组织互联网上的资源,以便快速、准确的获取自己需要的信息。问答系统有多种类型,如:社区问答系统,基于阅读理解的问答系统,基于知识图谱的问答系统等,涉及知识源搜索与构建、问题分析与答案获取等技术。传统的问答系统是根据用户输入的关键字,去数据库中进行匹配并计算相似度,返回一些相似度相对较高的网页链接,用户需要自己过滤网页中信息才能获取想要的答案。其中,基于知识图谱的问答系统,可以返回准确、简洁的答案,不需要用户额外的去筛选信息。此外,这种系统还可以方便、快捷的获取用户查询的相关信息,有利于更好地挖掘用户的潜在意图。
知识图谱是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是三元组。三元组的基本形式主要包括两种:(实体1,关系,实体2),(概念,属性,属性值)。知识图谱的数据通常来源于非结构化文本,需要从非结构化数据中抽取有效信息构建三元组。基于领域知识图谱的问答系统,目前在相关方面已研究取得了如下一些成果。
(1)知识图谱数据库建立方法
通过自然语言处理(Nature Language Processing,NLP)技术在领域文本中进行命名实体识别(Named Entity Recognition,NER)以及关系抽取,识别出特定名词和有含义的短语。例如:Wang C等人在文章《Information extraction and knowledge graph》中提出利用自然语言处理方法从中文地质科学文献中提取信息,构建一个混合语料库去训练地质单词分词器,并对分词器的分词结果进行频率统计分析来构建知识图谱。Jia Y等人在文章《A practical approach to constructing a knowledge graph for cybersecurity》中提出用Stanford NER来训练提取器以提取与网络安全相关的实体,构建了一个基于漏洞的网络安全本体。此外,Martinez-Rodriguez J L等人在文章《OpenIE-based approachfor knowledge graph construction from text》中提出了一种使用OpenIE生成的二元关系来构造知识图谱的方法,并提出了有利于从web网页上提取和链接知识图谱实体的策略。
(2)问答系统相关技术
传统的问答系统一般依据已经构建的历史问答库,对用户提出的问题进行预处理后,从已有的问题集中找出与所提出问题最相似的问题,再根据相似问题集合得到对应的答案集合。基于知识图谱的问答系统,需要构建知识图谱数据库,对问句进行自然语言处理与理解,并转换为知识图谱库可以实现查询的模式。例如,许坤等在文献《面向知识库的中文自然语言问句的语义理解》中提出利用Stanford Parser工具构建句法分析树以及依存关系生成查询语义图,丁烨在文献《基于本体的中文问答系统中问句的语义理解》中提出了基于本体的中文问答系统中问句的语义理解方法,等等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910767579.7/2.html,转载请声明来源钻瓜专利网。