[发明专利]用于识别名称集中的非独特名称的方法与系统有效
申请号: | 201210285192.6 | 申请日: | 2012-08-10 |
公开(公告)号: | CN103020099A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | T·B·艾伦;B·E·玛西;C·J·文森特 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 邹姗姗 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 名称 集中 独特 方法 系统 | ||
技术领域
本发明的实施方式涉及识别名称集中的非独特名称。
背景技术
实体解析(或者身份消歧)技术可以用于确定什么时候两个或更多个实体(例如,人、建筑物、地方、组织、文档、汽车、事物、其它对象,等等)尽管有不同的描述但是代表相同的物理实体。有时候这些技术被称为重复数据删除、匹配/合并、身份解析、语义和解或者有其它的名称。例如,包含CustID#1[Bob Jones,位于123Main Street,生日(DOB)为6/21/45]的第一个记录有可能代表与包含CustID#2[Bob K Jones,位于123 S.Main Street,DOB为6/21/1945]的第二个记录相同的实体。实体解析可以在单个数据源中用于找出重复,跨数据源确定完全不同的事务如何关联到一个实体,或者同时用在多个数据源中和跨多个数据源使用。
实体解析的结果可以用包含身份数据阵列的数据集提供。然而,存在许多其主要识别属性是名称的数据集。对于任何实体,都可以存在代表该实体的多个名称,有些名称不如其它名称独特。作为一个实体独特表示的名称是增加对其身份的理解或者提供对其身份的更多前后关系的名称。名称可以包括以下中的一个或多个:姓或起首字母,中间名或起首字母,名或起首字母,等等。
以下是一个例子,其中实体1有三个名称(即,实体1的表示),而实体2有两个名称(即,实体2的表示)。
实体1: 实体2:
JOHN B.SMITH JOHN DAVID SMITH
JOHN BRIAN SMITH PETE THOMPSON
JOHN SMITH
基于各种匹配特征(例如,每个名称的相同的社会保险号),可以知道用于单个实体的多个名称与那单个实体关联。因而,尽管JOHN DAVID SMITH和PETE THOMPSON看起来不一样,但是仍然知道这两个名称与实体2关联。
实体1中的名称JOHN SMITH是实体1中每个其它名称的显然非独特的重复性表示。名称JOHN SMITH没有增加对实体1中名称的任何前后关系或者理解。另外,实体1中的名称JOHN SMITH也可能是实体2中名称JOHN DAVID SMITH的非独特表示。
在尝试确定两个实体的名称的相似度时,实体解析系统可以执行交叉实体打分技术,该技术执行名称叉积的成对比较(例如,在比较的每一对名称中,一个名称来自实体1,而另一个名称来自实体2)并且为每对名称产生一个得分,可能产生以下结果:
这个例子中最高的得分来自于与实体1最不独特表示的名称(JOHN SMITH)的比较。尽管这可能是合理的得分,但是这个得分并没有准确地表示实体中的名称多相似或者多不同。相反,最高的得分指示这些实体是非常相似的,但是事实上,它们有一些显著的冲突(中间名)。类似地,最低的得分是从比较非常不同的名称(PETE THOMPSON)产生的。同样,这个低得分是合理的,但是最低的得分可能没有准确地反映两个实体中名称之间的相似度。即使实体解析系统使用得分的平均值,而不是最高或最低得分,来基于这些得分决定这些名称的相似度,结果也将最有可能偏离更高。
有些系统可以采取统计方法,其中给定名称的基数(cardinality)直接关联到数据集中实例的个数。这种方法可以假定不偏的数据集,可以假定不知道名称的真正区别,而且可以仅仅依赖于名称在给定数据集中的出现。而且,这种方法可以假定包含全世界名称的学习集。
有些系统可以采取生存方法。生存是把每个实体向下减少到只有最佳元素的过程。在这种系统中,实体将不包含多个名称,因为生存规则将把一列名称减少到一个名称。一般来说,生存规则是简单的规则(例如,最长的串或者最多的词)。
发明内容
提供了用于识别名称集中的非独特名称的方法、计算机程序产品和系统。该名称集是针对第一实体获得的。响应于比较该名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似。搜索所述第一名称和第二名称中的起首字母。响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母匹配所述第一名称和第二名称中的另一个中的对应起首字母,而且所述第一名称和第二名称中的一个被标记为非独特名称。应用交叉实体打分技术,该技术利用用于所述第一实体的所述名称集中的独特名称和用于第二实体的另一名称集中的名称。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210285192.6/2.html,转载请声明来源钻瓜专利网。