[发明专利]一种知识驱动的SPARQL查询构建方法有效

申请号：	201910282147.7	申请日：	2019-04-09
公开（公告）号：	CN109992658B	公开（公告）日：	2023-04-11
发明（设计）人：	周柳阳;张美;郑卫国	申请（专利权）人：	智言科技（深圳）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/36
代理公司：	深圳市中科创为专利代理有限公司 44384	代理人：	梁炎芳;谭雪婷
地址：	518000 广东省深圳市宝安区新安街道大***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种知识驱动 sparql 查询构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种知识驱动的SPARQL查询构建方法，属于数据查询技术领域。获取用户提交的SPARQL查询语句，抽取SPARQL查询语句中的实体集合和谓词集合；分别解析判断实体集合及谓词集合中实体数及谓词数的数量，将查询语句分别分类为简单问题、事实问题及复杂问题，复杂问题可分为显示实体问题及隐式实体问题，分别对不同类别的问题构建查询流程，得到相对应的查询答案。本发明根据不同的问题，构建相对应的知识图谱，筛选出正确的SPARQL查询语句；降低了传统方法的搜索空间，减少运行时间；处理复杂问题时，若隐式实体没有出现，通过中间产物限制隐式实体，从而找出正确的SPARQL查询语句并执行结果，准确快速。

技术领域

本发明涉及数据查询技术领域，尤其涉及的是一种知识驱动的SPARQL查询构建方法。

背景技术

在现有技术中，传统数据查询构件方法主要是首先通过暴力将实体链接和关系链接结果中的实体和谓词进行排列组合，然后通过一些简单的筛选规则进行过滤构建好的SPARQL查询语句。由于SPARQL语法的特性，每一条SPARQL都是由若干个三元组组成，而每一个三元组有两个实体占位符和一个谓词占位符，要穷举出所有的组合方式是一项工作量较大的事情。举个例子，从问题“List TV shows with producer as Erik Bork and companyis Dream Works Television？”中，可以抽取出实体集合E：

{http://dbpedia.org/resource/Erik_Bork,

http://dbpedia.org/resource/DreamWorks_Television}

和谓词集合P：

{http://dbpedia.org/ontology/producer，

http://dbpedia.org/ontology/company}

通过这种暴力组合模式，秉持一条谓词一个三元组的原则，可以推断出该SPARQL查询会有两个三元组。两个三元组说明有四个实体占位符，两个谓词占位符，按照排列组合的方式最终会产生4*3*2个SPARQL查询语句。

通过这种方式的确可以找到问题的SPARQL查询语句，提高问答系统的召回率，然而这种方式有以下几种缺点：

(1)搜索空间大，需要对实体和谓词进行全排列，其搜索空间会随着实体和谓词数的增加而呈指数级的增加，会耗费巨大的存储空间。

(2)运行时间长，需要在实体和谓词的全排列空间中寻找正确的答案，这会耗费很长的时间，用户体验十分不好。

(3)需要额外的排序算法和剪枝算法，为了从实体和谓词的全排列空间中找出正确的答案，需要额外设计排序算法和剪枝算法缩小搜索空间，从而给出正确答案。

因此，现有技术存在缺陷，需要改进。

发明内容