[发明专利]文件比对方法及装置有效
申请号: | 201210385557.2 | 申请日: | 2012-10-12 |
公开(公告)号: | CN103729342A | 公开(公告)日: | 2014-04-16 |
发明(设计)人: | 尹祥龙;万鑫明;吴金坛;吕苏;马军;杨惠娟;高伟东;周涛 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 高为;王忠忠 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 方法 装置 | ||
技术领域
本发明总体上涉及计算机信息处理领域,尤其涉及大信息量文件的快速处理技术。
背景技术
信息时代的一个重要特征是信息量的高速膨胀。例如在金融领域,随着金融行业的飞速发展,金融交易文件的数量和文件大小均快速增长,金融流水文件的文件信息量巨大,行数在十万以上。此外其还具有以下特点:1)以行为单位;2)行与行之间没有约束关系,以随机形式插入到文件中。在金融交易系统的并行测试工作中,需要比对两批近似流水文件之间的所有不同处,以确认系统的测试结果。面对动辄30G以上的海量流水文件,如何以较小的代价快速比较这些文件,成为当前测试工作中一个难题。
现有金融流水文件的比对方法是:依次把待比较的两批近似文件解压、排序、文件可视化比对工具比对(例如Beyond Compare、Diff命令),其中使用Beyond Compare还必须拷贝海量金融流水文件到Windows平台;同时为了提升速度,采用空间换取时间的方法,即使用多机服务器集群架构,利用物理机器的并行计算去解决单机计算瓶颈。现有方法对1G以内的文件比对是简洁快速的,但处理海量流水文件的比对非常慢,总共时间达到了7小时以上。现有方法还存在以下的缺点:从经济角度来看,使用服务器集群缩短近似比对的时间,但是服务器集群的运行维护成本较高,需要消耗的大量能源,所花费的代价较大;从技术角度来看,需要不必要的文件排序步骤,耗费系统内存、CPU、I/O资源,步骤太多,需要过多人工干预。因此,到现在为止还没有切实可行的实用技术解决金融行业所要求的基于关键域的海量文件近似比对技术。因而,研究快速的近似比对算法和近似比对策略显得尤为重要。
发明内容
为了至少解决上述问题的一个方面,本发明提出了一种文件比对方法,包括:对于待比对的文件,使用哈希函数进行编码得到相应的变换数据集;以及比较各个变换数据集。
上述文件比对方法中所述使用哈希函数进行编码的步骤包括将所述待比对的文件的每一个中的数据对一个预定数值取余数得到取余结果数据,并在所述变换数据集中记录冲突的数目和位置。
上述文件比对方法中所述待比对的文件包括文件一和文件二,所述方法还包括:扫描文件一的变换数据集,如果其中存在和文件二的变换数据集中相同的取余结果数据,那么将所述文件一和所述文件二中的冲突的数目分别减一,否则,继续扫描文件一的变换数据集,直到文件一的变换数据集被扫描和处理完毕为止;如果最后的文件一的变换数据集的冲突数不为0,则说明文件一不是文件二的子集,文件一变换数据集中冲突数为非0所对应的行数列记录了文件一比较文件二过程中的差异行;输出文件一比较文件二的差异行;以及扫描文件二的变换数据集,如果其中存在和文件一的变换数据集中相同的取余结果数据,那么将所述文件二和所述文件一中的冲突的数目分别减一,否则,继续扫描文件二的变换数据集,直到文件二的变换数据集被扫描和处理完毕为止;如果最后的文件二的变换数据集的冲突数不为0,则说明文件二不是文件一的子集,且文件二变换数据集中冲突数为非0所对应的行数列记录了文件二比较文件一过程中的差异行,输出文件二比较文件一的差异行。
上述文件比对方法中所述使用哈希函数进行编码的步骤包括将待比对的文件中的每一行数据建立哈希散列,让哈希值均匀分布。
本发明还提出了一种文件比对方法,包括:比较待比对的文件的大小,如果所述待比对的文件的大小不一致则立即确定所述待比对的文件是不同的;否则,对于所述待比对的文件,使用哈希函数进行编码得到相应的变换数据集;比较各个变换数据集;以及如果变换数据集相同则比较待比对的文件,否则结束本轮比较。
上述文件比对方法中所述使用哈希函数进行编码的步骤包括将所述待比对的文件中的每一个的数据对一个预定数值取余数得到取余结果数据,并在所述变换数据集中记录冲突的数目和位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210385557.2/2.html,转载请声明来源钻瓜专利网。