[发明专利]甄别重复实体数据的方法和系统有效
| 申请号: | 200910170551.1 | 申请日: | 2009-09-10 |
| 公开(公告)号: | CN102023984A | 公开(公告)日: | 2011-04-20 |
| 发明(设计)人: | 莫正华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;张淑贤 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 甄别 重复 实体 数据 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,特别涉及一种甄别重复实体数据的方法和系统。
背景技术
搜索引擎技术可以实现根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务。搜索引擎技术诞生以来,互联网中提供搜索服务的网站为了更好的提供用户身边信息的搜索服务,进一步推出了生活搜索。生活搜索指的是在搜索引擎中有明确的生活信息,针对生活信息深度处理,为用户带来极大的方便。如选中一个生活的类别、地域等标签,然后再使用搜索引擎,则可以帮助搜索用户方便地寻找身边的分类生活信息。目前,可以搜索的信息类型较多,包括房屋租售、工作机会、火车票、物品交易和餐饮等。
提供生活搜索的网站,其数据库中需要预先存储有大量丰富的数据。以实现店铺这类实体的生活搜索为例,网站需要预先收集尽量多的店铺的信息。然而,随着生活服务行业不断发展,网站还需要不断地将网站数据库中的店铺数据进行扩充、更新。
随之而来的问题是,如果待导入的店铺数据与网站数据库中的某已有店铺数据相同,即待导入的店铺实际在网站数据库中已经存在,则,导入新的店铺数据后,将造成网站数据库中数据的重复,显然,这些重复的数据会浪费数据库宝贵的存储空间。另一方面,当用户发起店铺搜索,而网站数据库中存在重复店铺数据,这样,网站会返回这些重复的店铺数据给用户,而返回的这些重复店铺数据实际上仅代表了较少的店铺,则这样是搜索结果并不是用户希望获得的结果,也不利于用户的搜索体验。为了保证用户体验,为用户提供精准的搜索服务,就必须保证数据库中的所有店铺的唯一性。
然而,现有技术中还没有高效的甄别重复实体数据的方法。
发明内容
本申请实施例的目的是提供一种甄别重复实体数据的方法和系统,以实现高效的甄别重复实体数据。
为解决上述技术问题,本申请实施例提供一种甄别重复实体数据的方法和系统是这样实现的:
一种甄别重复实体数据的方法,包括:
S1:服务器获取待甄别的实体数据;
S2:服务器将待甄别的实体数据的名称与数据库中预定量的实体数据的名称通过下述方式逐一比较实体名称:
利用预置的不同词性的分词词库对待甄别实体名称及数据库中的实体名称进行分词并确定词性;
将经过分词并确定词性的待甄别店名及数据库中的实体名称分别填入预定的模板;
通过比较待甄别店名和数据库中实体店名在所述模板中对应词性的词是否相同得到实体名称比较的评分;
S3:服务器通过比较评分与预定标准分来判断所述待甄别的实体数据与比较的数据库中的实体数据重复;
S4:服务器将判断为不重复的所述待甄别的实体数据添加入数据库。
一种服务器,包括:
获取单元,用于获取待甄别的实体数据;
名称比较单元,用于将待甄别实体数据的名称与数据库中预定量的实体数据的名称通过下述方式逐一比较实体名称:
利用预置的不同词性的分词词库对待甄别实体名称及数据库中的实体名称进行分词并确定词性;将经过分词并确定词性的待甄别店名及数据库中的实体名称分别填入预定的模板;通过比较待甄别店名和数据库中实体店名在所述模板中对应词性的词是否相同得到实体名称比较的评分;
判断单元,用于通过比较评分与预定标准分来判断所述待甄别的实体数据与比较的数据库中的实体数据是否重复;
添加单元,用于将判断为不重复的实体数据添加入所述数据库中。
由以上本申请实施例提供的技术方案可见,服务器获取待甄别的实体数据,服务器将待甄别的实体数据与数据库中预定量的实体数据对实体名称逐一进行比较并得到评分,服务器通过比较评分与预定标准分来判断所述待甄别的实体数据与数据库中的实体数据重复,可以高效的甄别出重复的实体数据,并将不重复的实体数据添加入所述数据库中。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请涉及的系统结构图;
图2为本申请甄别重复实体数据方法实施例的流程图;
图3为本申请postgresql数据库集群拓扑图;
图4为本申请S202中实体名称比较的实现方式流程图;
图5为本申请对机构词分类采用优先匹配的原则示意图;
图6为本申请一服务器实施例的框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910170551.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车用座椅的滑动机构
- 下一篇:大电流三相手动防泄漏保护器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





