[发明专利]用于对数据库中的信息进行修正及补充的方法及系统在审
申请号: | 201310677222.2 | 申请日: | 2013-12-13 |
公开(公告)号: | CN104714950A | 公开(公告)日: | 2015-06-17 |
发明(设计)人: | 冯兴;周继恩;刘军 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张懿;汤春龙 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据库 中的 信息 进行 修正 补充 方法 系统 | ||
技术领域
本发明一般地涉及信息处理技术领域,并且具体地涉及一种用于对数据库中的信息进行修正及补充的方法及系统。
背景技术
随着计算机技术的日益普及,各式各样的信息越来越多地以数据库的形式被电子化地进行存储或归档。对于一些数据库而言,其信息通常唯一地来源于与信息关联的主体对象,例如由主体对象向系统输入信息,或者由第三方向系统输入采集自主体对象的信息。在这种情况下,往往会存在各种缺陷,例如信息不完整或不准确,最终导致当数据库信息被使用时产生错误或无法得到所希望的结果。
在银行系统中,交易收单结构一般地可以通过银行卡联合组织的商户管理系统进行商户信息注册。因为在注册过程中的疏忽或信息过期等原因,该管理系统中登记的商户信息经常会出现缺失和不准确。例如商户固定电话号码或地址缺失,或者由于商户搬迁而导致原先注册的固定电话或地址信息失效。另一方面,原始提交的商户信息本身也可能是不准确的,例如地址信息中存在错别字或者固定电话号码格式不对或是无效的号码。另外,在目前的商户管理系统中登记的都是工商注册名,有时从工商注册名上很难确定商户分类。对于一些异地收单的商户或临时商户,就更难确定其信息的准确性和有效性。同样地,对于一些产品管理数据库也存在类似的问题。
传统的信息完善集中在信息校对方法上,通常利用规则对数据库中的数据格式进行限定。这能在数据格式上保证数据的完整性,但在智能识别数据的准确性等方面无能为力。例如,对固定电话号码设定规则,必须为7-8位的数字。但是在信息管理系统进行输入时,随便输入7个9就可以绕过规则。或者在输入的过程中不小心将某一位由3输成了4,这都是规则方式无法检测出来的。若需要对数据库中的对象进行类别检查,规则式的方法可能根据对象名称中是否有特征词来检查。这种方法错误率较高,因为特征词通常是人为总结出来,容易有遗漏或者导致错误归类。
总的来说,现有方法大多局限于被检查的信息本身,无法有效地解决类似商户管理系统的数据库所面临的问题。
发明内容
鉴于上述情况,本发明旨在提供有效准确的数据库信息完善方法以及系统。
具体地,本发明提供了一种用于对数据库中的信息进行修正及补充的方法,在所述数据库中每个数据库信息条目与一个对象相关,所述方法包括:所述方法包括:从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;从所述网页页面中提取与所述对象相关的互联网信息;将所述数据库中的信息与所述互联网信息进行匹配;以及根据所述匹配的结果对所述数据库中的信息进行修正及补充。
根据本发明的一些实施例,每个所述数据库信息条目包括至少一个精确标识字段和至少一个模糊标识字段;并且从网页页面提取互联网信息包括:从所述网页页面提取与所述对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目,其中所述特征字段包括所述至少一个精确标识字段和所述至少一个模糊标识字段。
根据本发明的一些实施例,所述匹配包括:将每个数据库信息条目中的所述至少一个精确标识字段与所有所述互联网信息条目中的所述至少一个精确标识字段进行匹配;当对于该数据库信息条目存在精确标识字段相同的互联网信息条目时,计算该数据库信息条目中的所述至少一个模糊标识字段与所有精确标识字段相同的互联网信息条目中的所述至少一个模糊标识字段的相似度;以及将所述相似度最高并且超过相似度预定阈值的互联网信息条目确定为与该数据库信息条目匹配的互联网信息条目;并且所述方法还包括根据该匹配的互联网信息条目对该数据库信息条目进行修正及补充。
根据本发明的一些实施例,所述匹配还包括:当对于所述数据库信息条目不存在精确标识字段相同的互联网信息条目时,将该数据库信息条目中的两个或更多个模糊标识字段合并为第一匹配字段;计算该第一匹配字段与由每个互联网信息条目中对应的模糊标识字段同样地构成的第二匹配字段的相似度;以及将相似度最高并且超过相似度预定阈值的互联网信息条目确定为与所述数据库信息条目匹配的互联网信息条目;并且所述方法还包括根据该匹配的互联网信息条目对所述对象的数据库信息条目进行修正及补充。
根据本发明的一些实施例,对所述数据库中的信息进行修正及补充包括在数据库信息条目中的所述至少一个精确标识字段为空时将所述与其匹配的互联网信息条目中的所述至少一个精确标识字段信息填入该数据库信息条目中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司;,未经中国银联股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310677222.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页转换方法及装置
- 下一篇:一种数据拟合的方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置