[发明专利]一种基于聚类确定POI名称的系统及方法有效
申请号: | 201410849123.2 | 申请日: | 2014-12-29 |
公开(公告)号: | CN104572955A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 王智广;魏少俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 确定 poi 名称 系统 方法 | ||
技术领域
本发明涉及电子地图技术领域,具体而言,涉及一种基于聚类确定POI名称的系统和一种基于聚类确定POI名称的方法。
背景技术
兴趣点(Point of Interest,POI)一般是电子地图中标注的地理信息点,通常包含POI标识、POI名称、POI类型、经度、纬度等信息。POI可以在地图上标注出来,带有经纬度信息,可以用来查找并计算导航的地标点或者建筑物,例如商场、停车场、学校、医院、酒店、饭店、超市、公园、旅游景点等。
越来越多的用户在电子地图中查询POI,数据库中存储的POI数据为POI查询提供数据支撑。目前,对数据库中的POI数据进行更新主要通过进行数据实采,根据实采得到的数据对数据库中存储的POI数据进行更新,或是从互联网上的各个生活类信息网站上获取POI数据,只要获取的数据包括POI的名称和地址,即可将该条数据确定为一条POI数据。由于POI数据的获取及更新方式的特点,不可避免的导致互联网上存在着各种各样的POI数据。因此,从不同来源网站获取的POI数据中,有可能存在重复性数据,即多条POI数据实际描述的是同一POI,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同。重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称,影响用户体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的基于聚类确定POI名称的系统和相应的基于聚类确定POI名称的方法。
根据本发明的一个方面,提供了一种基于聚类确定POI名称的系统,该系统包括:
地址数据抓取器,用于从网络数据中抓取地址数据;
地址数据解析器,用于从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
关键词确定器,用于基于所述名称字段确定一个或多个关键词;
关键词聚类器,用于将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
POI名称生成器,用于根据聚类后的关键词确定此地址信息对应的POI名称。
优选地,所述关键词确定器进一步包括:
切词单元,用于对所述名称字段中的名称进行切词处理生成分词;
关键词获取单元,用于根据所述分词获取所述地址数据的关键词。
优选地,所述关键词获取单元进一步包括:
第一频次统计模块,用于统计对应相同地址信息的每个分词出现的频次,作为第一频次;
关键词生成模块,用于根据所述第一频次生成所述地址数据的关键词。
优选地,所述关键词生成模块选择频次最小并且是非地名的分词作为所述地址数据的关键词。
优选地,所述POI名称生成器进一步包括:
频率统计单元,用于计算各个类中名称字段的出现频率;
类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元,用于将每个类标识名称均作为POI名称。
优选地,所述POI名称生成器进一步包括:
频率统计单元,用于计算各个类中名称字段的出现频率;
类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元,用于选择出现频率最高的类标识名称作为POI名称。
根据本发明的另一个方面,提供了一种基于聚类确定POI名称的方法,包括:
从网络数据中抓取地址数据;
从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
基于所述名称字段确定一个或多个关键词;
将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
根据聚类后的关键词确定此地址信息对应的POI名称。
优选地,所述步骤:基于所述名称字段确定一个或多个关键词,进一步包括:
对所述名称字段中的名称进行切词处理生成分词;
根据所述分词获取所述地址数据的关键词。
优选地,所述步骤:根据所述分词获取所述地址数据的关键词,进一步包括:
统计对应相同地址信息的每个分词出现的频次作为第一频次;
根据所述第一频次生成所述地址数据的关键词。
优选地,所述步骤根据所述第一频次生成所述地址数据的关键词具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司;,未经北京奇虎科技有限公司;奇智软件(北京)有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410849123.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:视频网页的处理方法和装置
- 下一篇:直播多媒体文件的识别方法及装置