[发明专利]文件比对方法和系统在审
申请号: | 201711329704.3 | 申请日: | 2017-12-13 |
公开(公告)号: | CN107992599A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 詹志伟;江汉祥;张辉极;洪海瑞;郭金跃 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙)35235 | 代理人: | 郝学江 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 方法 系统 | ||
技术领域
本发明涉及信息安全技术领域,并且特别涉及一种文件比对方法和系统。
背景技术
目前的文件比对方法一般是先建立原始文件的MD5(Message Digest Algorithm 5,消息摘要算法第五版)哈希值的特征数据库,而后对输入的待比对文件进行MD5哈希值计算,最后再与特征数据库中的特征值进行比对。根据MD5“任意一段明文数据经过散列以后,其结果必须是永远不变的”的特性,如果待比对文件的MD5值与原始文件的MD5值一致,则判断两个文件的内容是一致的。然而,在文件的内容(例如图像、音视、视频、文本)有修改有拼接、而主体内容不变的情况下,通过该方法进行比对只能得知文件的相异性、而不能得知其相似性,因此如果要在海量的文件中找到相似的文件,就要耗费大量的人力物力进行原始文件的特征值的收集。
发明内容
本发明提出了一种文件比对方法和系统,可以提高比对的命中率,能够更有效地找到相似的文件。
在第一个方面,提出了一种文件比对方法,其包括:从特征数据库取得一或多个参考特征值;计算待比对文件的文件特征值;比对该文件特征值和该一或多个参考特征值以产生初步比对结果;若该初步比对结果符合预定条件,根据该文件特征值更新该一或多个参考特征值;若该初步比对结果不符合该预定条件,根据该待比对文件的文件类型重新计算新的该文件特征值,比对新的该文件特征值和该一或多个参考特征值以产生分类比对结果,并根据该分类比对结果提供新的该文件特征值和该一或多个参考特征值的匹配性信息;以及当接收到与该匹配性信息相关的新的该文件特征值和该一或多个参考特征值的匹配确认,根据新的该文件特征值更新该一或多个参考特征值。
在第二个方面,提出了一种文件比对系统,其包括处理器和存储器,该存储器中存储有该存储器中存储有数据获取单元、数据预处理单元、数据处理单元和数据比对单元。该数据获取单元用于从特征数据库取得一或多个参考特征值;该数据预处理单元用于计算待比对文件的文件特征值;比对该文件特征值和该一或多个参考特征值以产生初步比对结果;以及若该初步比对结果符合预定条件,根据该文件特征值更新该一或多个参考特征值;该数据处理单元用于:若该初步比对结果不符合该预定条件,根据该待比对文件的文件类型重新计算新的该文件特征值;该数据比对单元用于:比对新的该文件特征值和该一或多个参考特征值以产生分类比对结果,并根据该分类比对结果提供新的该文件特征值和该一或多个参考特征值的匹配性信息;以及当接收到与该匹配性信息相关的新的该文件特征值和该一或多个参考特征值的匹配确认,根据新的该文件特征值更新该一或多个参考特征值。
在第三个方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序该一或多个计算机程序被计算机处理器执行时实现以下步骤:从特征数据库取得一或多个参考特征值;计算待比对文件的文件特征值;比对该文件特征值和该一或多个参考特征值以产生初步比对结果;若该初步比对结果符合预定条件,根据该文件特征值更新该一或多个参考特征值;若该初步比对结果不符合该预定条件,根据该待比对文件的文件类型重新计算新的该文件特征值,比对新的该文件特征值和该一或多个参考特征值以产生分类比对结果,并根据该分类比对结果提供新的该文件特征值和该一或多个参考特征值的匹配性信息;以及当接收到与该匹配性信息相关的新的该文件特征值和该一或多个参考特征值的匹配确认,根据新的该文件特征值更新该一或多个参考特征值。
本发明通过在数据获取阶段先将待比对文件与特征数据库中的特征数据进行快速比对,针对不符合匹配条件的待比对文件根据其文件类型重新计算特征值、而后再进行特征比对以找到相似的文件,经过确认其匹配性之后将新的特征值更新到特征数据库中,这样循环地补充特征数据库。因此,能够提高比对的命中率,特别是针对具有部份相同图像内容的图像数据、具有相似声纹数据的音频数据、具有相同视频片段的视频数据,可以更有效地找到相似的文件。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是根据本发明的一个实施例的文件比对方法的流程图;
图2A是图1所示的文件比对方法中图像特征数据库的建立的流程图;
图2B是图1所示的文件比对方法中音频特征数据库的建立的流程图;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711329704.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:旋转式遥控器
- 下一篇:一种便携式电子控制装置