[发明专利]基于多对象实例的对象值对齐方法有效
申请号: | 201210166855.2 | 申请日: | 2012-05-25 |
公开(公告)号: | CN103425711B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 姜珊珊;郑继川 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 黄小临 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对象 实例 对齐 方法 | ||
技术领域
本发明涉及一种对对象的多个异构实例的属性值进行对齐的方法和系统。
背景技术
随着互联网的普及,人们越来越多地通过互联网获取自己感兴趣的资源,并将资源进行整理,符合自己的需要。互联网上存在对各种产品的规范进行说明的网页内容,这些网页内容通常明确记载各种产品的属性以及属性值。人们为了获取这些内容资源,可以对这些产品对象的属性以及属性值进行信息抽取,并基于所抽取的信息建立对象数据库。但是,不同的互联网网页提供商对于同一对象(即一种产品)在标明该对象的属性和属性值时,所采用的语言、措辞、属性的多少、以及属性值的格式方面都是存在差异的,而且对象产品的评论、排序以及描述页面在互联网上大量存在,这就构成了同一对象在互联网上存在异构(heterogeneous)的实例(即描述该对象的各种属性的网页或内容页面)。如何从庞杂的网络资源中提取特定领域(domain)的由于上述差异导致的异构实例对象(object)的特征(feature)以便整合为能够方便自己利用的数据内容是人们所需要的一种技术。
本申请的申请人于2012年2月14日向中国专利局提交的中国专利申请号201210032507.6就提及了对各种异构实例的属性进行能够聚类的处理。该申请的内容整体通过引用的方式完全包含在本申请中。因此,在采用上述专利申请所披露的方式对对象或产品的异构实例进行领域特征聚类后,需要对该聚类后的属性值进行进一步处理从而获得一种代表性的值。具体而言就是对属性值进行值排序和值规范化。多数现有技术关注于特定领域,领域信息亦很难收集,需要大量的人力,但是这类方法通常得到很好的结果。关于从异构数据集中选取最具代表性的一个(或多个)的技术多出现于查询扩展或图像处理领域。由于目标数据集不同,排序和抽取的方法也不尽相同。美国专利US8035855B“Automatic selection of a subset representative pages from a multi-page document”提供了一种从多页文档中自动选取最具代表性页面的方法。美国专利US6728704B“Method and apparatus for merging result lists from multiple search engines”提供了了一种合并多搜索引擎结果列表的方法和系统;美国发明公开US20110145289 A1“System and Method For Generating A Pool of Matched Content”披露了一种生成匹配内容池的方法和系统。然而,这些发明通常会具体到某一领域或语言,不具有普适性。因此,人们需要提供一种无关领域和语言对的对该聚类后的属性值进行处理从而获得一种代表性值并得到可以接受的结果精度的方法。
发明内容
鉴于现有技术中存在的上述问题而做出本发明。本发明一般涉及与信息处理和信息整合相关技术,且更具体地,涉及对对象的多个异构实例的属性值进行对齐的方法和系统,即,在对对象的多个异构实例的属性进行规范化之后,从同一规范化属性的众多属性值中选择或生成一个最具代表性的一个属性值(或多个)的方法和系统。
根据本发明的一个方面,提供了一种对齐对象的异构实例的属性值的方法,包括:对同一对象的异构实例的属性-值对的属性名执行属性规范化处理获得领域特征;对属于所获得的领域特征下的属性-值对集合中的所有属性-值对进行排序;以及从排序后的所有属性-值对中的所有属性值中选择合适的公共子字符串作为所述对象的对象值。
根据本发明的一种实施方式,对属于所获得的领域特征下的属性-值对集合中的所有属性-值对进行排序包括:基于属性-值对集合中的每一属性-值对的对象实例的来源计算该属性-值对的重要性分值;基于属性-值对集合中的属性-值对之间的相似度计算每一属性-值对的距离分值;基于属性-值对集合中的属性-值对中的属性值之间的相似度,计算属性-值对的频率分值;基于属性-值对集合中的属性-值对中的属性值和与所述对象同领域的其它对象的已有的对象值之间的相似度,计算所述属性-值对的证据分值;以及基于上述所计算的分值中的至少两个分值,执行加权求和,以计算所述属性-值对集合中的每个属性-值对的总分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210166855.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种型架安装的调整装置
- 下一篇:数控水切割机床用磨砂烘干装置