[发明专利]基于语义相似度的地理要素查询扩展方法无效
| 申请号: | 201110081505.1 | 申请日: | 2011-04-01 |
| 公开(公告)号: | CN102156726A | 公开(公告)日: | 2011-08-17 |
| 发明(设计)人: | 张福浩;张东;刘纪平 | 申请(专利权)人: | 中国测绘科学研究院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 刘立国 |
| 地址: | 100830 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 相似 地理 要素 查询 扩展 方法 | ||
技术领域
本发明属于地球空间信息系统领域,尤其涉及一种基于地理本体语义相似度进行地理要素查询扩展方法。
背景技术
“人类正在被数据淹没,但人类却贫乏于知识。”随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,面对庞大的信息资源,人们感到无所适从,迷失在Internet这张巨大的信息网中,“信息过载”和“信息迷航”已经成为人们谈论最多的话题之一。面对浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索获取真正有用的信息。但是目前实用的信息检索系统,主要是基于人工分类目录和关键词匹配的。前者由于需要手工操作,对海量信息资源的揭示的效率和深度都很有限,后者仅局限在字符形式匹配的层面上,对信息的语义、语用的揭示极为有限,同时多义词、同义词等异构信息的存在使得这种词形匹配方式的缺陷日益明显,因此许多检索系统经常会出现检索不全、答非所问的情况。
而对于约占人类信息80%左右的空间信息来说,由于具有分布性、多样性、异构性的特点,给空间信息的共享和互操作带来了许多不便。同时,限于相关技术的研制与发展,目前空间信息资源的提供者对数据的描述只停留在数据的表面层次上,数据之间缺乏必要的关联,导致计算机无法理解数据的内涵,难以准确地发现满足用户需求的数据,从而直接影响到用户获取信息的速度和效率。
而在传统的地理信息检索方式中,以下问题日益明显:
(1)地理空间信息表现形式的多样性。传统的地理空间信息常以地名或空间坐标数据的形式出现,这是多数人所认可和熟知的。但这两类常见的地理空间信息因为国度、文化、承载介质的不同而表现各异。随着人类对地理信息世界认识的不断深入以及地理空间信息解决方案的不断改进,地理空间信息的表现形式逐渐走向多样化,这为地理空间信息的检索带来了许多挑战。
(2)地理空间信息描述的模糊性。这主要表现在两个方面。一方面是在描述地理空间信息时使用了无法精确定位的名称。另一方面是对地理空间信息的描述存在歧义。如部分不同地区的地名称谓相同、或者地名与方位名相同,这些名称在传统的词形匹配方式信息检索时极易造成混淆,给地理空间信息的检索造成障碍。
(3)传统信息检索主要以关键词词形匹配的方式实现,多义词、同义词等异构信息的存在使得这种词形匹配方式的缺陷日益明显。在传统信息检索基础上发展而来的地理空间属性特征信息的检索同样继承了这个缺陷。
另外,用户在查询需要的地理信息时,往往并不了解数据在数据库中的名称和存储结构,另外人们对世界认知的不同方式,导致对同一地理现象的观察描述会侧重于对象不同的侧面,从而产生观点上的差异,并形成语义异构。即由于用户认知和概念世界中的概念与系统模型中的概念之间存在语义异质性,用户查询出来的数据往往并不是他们真正需要的。这就要求系统能够对用户表达的查询语句进行相似匹配,把满足条件的信息返回给用户,因此可以利用地理本体来建立智能地理信息发现和查询系统以及地理信息服务系统。
所谓地理本体就是,把有关地理科学领域的知识、信息和数据抽象成由一个个具有共识的对象(或实体),并按照一定的关系而组成的体系,同时进行概念化处理和明确的定义,最后以形式化表达的理论与方法。
相似度的计算方法目前有三种途径:一是利用语料库统计的方法,根据两个概念在上下文出现的频率,计算概念间语义相似度;二是利用语义词典如WorNet、HowNet等的同义词或义原组成的树状层次体系结构,通过计算两个概念之间的信息熵或语义距离,计算概念间的语义距离;三是利用本体中两个概念节点之间的语义距离计算概念的相似度。
基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。基于词典的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。第三类方法虽然对影响概念语义相似度的节点深度、节点密度、属性信息等因素加以考虑,但仅考虑到基本的属性信息,而忽略了地理概念间的空间关系这一影响因子,这恰恰是地理本体中对语义相似度影响最大的因素,因此在计算地理要素相似度方面很难加以应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国测绘科学研究院,未经中国测绘科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110081505.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有液压位移放大机构的超声波直线电机及其工作方法
- 下一篇:自发电电动自行车





