[发明专利]一种基于模糊字典树的地理词汇快速抽取方法有效
申请号: | 201611164766.9 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106777118B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 佘冰;呙维;朱欣焰;王绪滢;胡涛 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 字典 地理 词汇 快速 抽取 方法 | ||
本发明公开了一种基于模糊字典树的地理词汇快速抽取方法,包括地理信息本体入库、生成基于拼音、字缺失的Trie节点、根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制、提供地理词汇的相似度实现抽取结果评分排序、快速抽取位置描述中的所有基础位置概念对象等5个步骤;本发明基于Trie实现了一种基础位置概念对象的高效抽取方法,实现融合特定位置概念类型的模糊、漏字等情况,利于解决针对位置描述定位的相关问题。
技术领域
本发明属于自然语言位置提取技术领域,特别是涉及一种基于模糊字典树的地理词汇快速抽取方法。
背景技术
位置描述概念根据其构成可进一步划分为:基础位置概念和复杂位置概念。在位置概念的基本结构组成中,包括地名、地址、POI以及相关的空间关系。地名的形成有文化、经济、政治等因素,会随着时间变化而变化;地址的形成符合行政的划分特征,是对于特定位置的结构化描述,是若干基础地名的组合,具有地域性特征;POI是商家或机构以简洁的形式传达尽量唯一的特征,包含类别、业务、地点等特征词汇;空间关系是地名、地址和POI的组合,表达地理实体间的关系,反映地理实体和位置信息的描述、关联与计算,是空间认知的体现。
尽管没有唯一的区分特征,人们在形成概念的过程中依然遵循一定的标准进行地名的分类,模型的粒度越细,表达能力越强,也越可能与实际产生偏差。地名概念的构成较为简单,其只包含对应的实体名称词汇及特征词两个基础位置概念;地址的概念构成一般包含包含行政区、街道巷、小区、门楼址、以及某个标志物的名称,其从结构上本身呈现出很明显的层次化特征。由于地址的标准化形式,其也是在日常通信交流以及行政管理过程中最为常见的一种位置表达形式。
广义的位置模型由多源的位置信息组成,由于位置可以以多种形式出现,建立一个针对位置描述定位的通用位置概念模型十分困难,因此在考虑地名地址概念的建模中,应侧重于位置描述的定位,围绕位置概念的基本结构进行概念的构建,分析位置概念的词汇构成,融入对于位置定位计算中需要的语义和空间信息。
发明内容
为了解决上述技术问题,本发明将位置描述概念模型与解析技术相结合,利用位置概念蕴含语义信息,以知识抽取替代通用的中文分词阶段,提出一种基于模糊字典树的地理词汇快速抽取方法,基于Trie实现融合特定位置概念类型的模糊、漏字等情况,将位置概念根据地理词汇组成划分,抽取位置描述中的基础位置概念对象。
本发明所采用的技术方案是:一种基于模糊字典树的地理词汇快速抽取方法,包括以下步骤:
步骤1:地理信息本体入库;
步骤2:生成基于拼音、字缺失的Trie节点;
步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;
步骤4:提供地理词汇的相似度实现抽取结果评分排序;
步骤5:快速抽取位置描述中的所有基础位置概念对象。
作为优选,步骤2的具体实现包括以下子步骤:
步骤2.1:输入基础位置概念对象k、文本w、类型序号c;
基础位置概念其对应位置概念的原子组成词汇的概念表达,其只有一个固有属性“word”,代表词汇的字符串形式。
步骤2.2:根据一个字符长度阈值hm对w进行判断,若w字符长度大于选定阈值hm,则取局部的删除参数m定为1,否则为0;
步骤2.3:将w类型转换为半角形式;
步骤2.4:获取文本w并使之对应于每一个汉字的拼音集合P;
步骤2.5:根据m值分情况讨论;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611164766.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水平岩层构造地貌的自动识别方法
- 下一篇:在线式同步旅游方法