[发明专利]一种面向自然语言的位置信息提取方法有效
申请号: | 201310246368.1 | 申请日: | 2013-06-20 |
公开(公告)号: | CN103309992A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 呙维;朱欣焰;陈柳媛;佘冰 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 自然语言 位置 信息 提取 方法 | ||
技术领域
本发明涉及位置信息服务领域,尤其涉及一种面向自然语言的位置信息提取方法。
背景技术
地理信息系统(GIS)是一门综合性的学科。目前,GIS已在许多行业,如电力、通讯、水利、银行、交通、城市规划、土地管理、资源环境保护等得到广泛的应用。与此同时,GIS随着其他学科的发展而发展,其自身的发展也带来许多新的课题。近年来,智能GIS受到越来越多的关注,自然语言与GIS相结合是GIS智能化发展的一个重要方向,使GIS在应用方式上更加人性化、智能化,提供易操作的用户访问与信息表达手段,对于GIS大众化起到重要的推动作用。GIS自然语言空间查询,自然语言路径描述,中文文本空间关系抽取,场景转换及场景重建等领域已成为当前地理信息科学研究的热点。自然语言符合人类表达的习惯。人类表达自己思想最方便、最自然的方式是利用人类自身的各种自然语言,人之间交流观点、传播消息最方便、最自然的方式也是利用自然语言。自然语言与GIS相结合的一个重要应用是面向自然语言的位置服务。如何从自然语言中自动抽取空间信息,消除GIS中结构化空间信息与自然语言中非结构化空间信息之间的语义障碍,已成为面向自然语言的位置服务需要首先解决的难题。目前自然语言处理和数据挖掘等人工智能领域的研究成果,为实现智能GIS奠定了坚实的基础。
面向自然语言的位置描述信息提取是自然语言位置服务首先需要解决的问题。自然语言位置描述包括地名描述、位置关系描述等。目前,自然语言位置描述的研究对象局限在中文文本地名解析和自然语言空间关系描述的词汇及句法模式上,还没有建立GIS位置信息的完整的自然语言理解机制,并且成果仍然停留在简单原型系统设计阶段,缺乏全面的实用化探讨。此外,在规则描述语言方面,目前的研究大多针对机器翻译,没有位置描述方面相关的规则描述语言研究。
发明内容
为了解决上述的技术问题,本发明根据自然语言位置描述的特点,构建了语义位置概念层次模型,定义一种基于语义位置概念的自然语言位置提取规则描述方法,提出了一种面向自然语言的位置信息提取方法。
本发明所采用的技术方案是:一种面向自然语言的位置信息提取方法,其特征在于,包括以下步骤:
根据权利要求1所述的面向自然语言的位置信息提取方法,其特征在于:所述的步骤3的实现包括以下子步骤:
步骤3.1:根据地名词典,解析所述的地名提取规则;
步骤3.2:将所述的地名提取规则与位置描述进行匹配,若匹配成功,则记录地名识别结果;
步骤3.3:根据所述的地名识别结果的字符起止位置、有效字数等信息,消除地名歧义,处理地名描述省略情况;
步骤3.4:根据所述的地名词典、地名识别结果,解析所述的空间关系提取规则;
步骤3.5:将所述的空间关系提取规则与所述的位置描述进行匹配,若匹配成功,则记录空间关系识别结果和其中匹配到的有效字符;
步骤3.6:根据所述的地名词典、地名识别结果、已有空间关系识别结果,继续解析所述的空间关系提取规则;
步骤3.7:重复所述的步骤3.5和3.6的过程,直至匹配到的有效字符无增长;
步骤3.8:根据所述的记录空间关系识别结果的字符起止位置、有效字数等信息,消除所述的空间关系歧义;
步骤3.9:经过地名识别和空间关系识别,提取位置信息。
本发明相对于现有技术,具有灵活性强的优点,能够适合各类位置描述句法模式。
附图说明
图1:本发明具体实施例的位置概念层次模型。
具体实施方式
以下将通过附图和具体实施方式对本发明做进一步阐述。
在数学、逻辑和计算机科学中,形式语言是用精确的数学和可处理的公式定义的语言。在形式语言的理论中,语言被看成是一个抽象的符号系统,乔姆斯基(Chomsky)曾经把形式语言定义为:按一定规律构成的句子或符号串的有限或无限的集合。根据这个定义,无论哪一种语言都是句子和符号串的集合,当然自然语言也不例外,汉语、英语等所有的自然语言都是一个无限的集合。我国学者吴蔚天把自然语言看成一个抽象的数学系统。无论把语言看成集合还是数学系统,都可以用数学的方法来进行描述。一般地,表述一种语言可以有三种途径:①穷举法,把语言中的所有句子都枚举出来;②产生式文法描述,语言中的每个句子都用严格定义的规则来构造,利用规则生成语言中的合法句子;③自动机法,通过对输入的句子进行合法性检验,区别哪些是语言中的句子,哪些不是语言中的句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310246368.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种消息查询方法及装置、终端设备
- 下一篇:数据处理的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置