[发明专利]一种基于文档混合特征的文档相似度判定方法和装置有效

申请号：	201711041146.0	申请日：	2017-10-30
公开（公告）号：	CN107656909B	公开（公告）日：	2021-06-01
发明（设计）人：	魏效征;王志海;喻波;安鹏	申请（专利权）人：	北京明朝万达科技股份有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100097 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文档混合特征相似判定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于文档混合特征的文档相似度判定方法和装置，该方法包括以下步骤：对输入的文件或者数据流进行正则表达式匹配；如果匹配失败，则结束，如果匹配成功，对正则表达式匹配输出的多个特征字符串进行特征再处理；分别对特征再处理的多个结果进行链表管理，形成多个特征链表；对多个特征链表进行链表遍历和特征归并处理；输出相似度判定结果。通过本方案，大大提高结构化文档中表格数据的识别能力，可以大幅度条excel表格类型的文档相似度的判定能力，速度更快，容易理解，适合实际业务需要，为数据管控提供了坚实的技术能力。

技术领域

本发明涉及计算机搜索领域，具体涉及一种基于文档混合特征的文档相似度判定方法和装置。

背景技术

文档相似度判定广泛应用于互联搜索、舆情报告、企业分级分类等各种应用中。因此无论是结构化的表格类型的文档，还是非结构型的字符类文档，都有较多的文本相似识别的方法。

然而，含有表格的文档是企业日常业务中常用的常用格式，往往会包含企业较多的业务信息或敏感数据。例如一份财务报告中，除去描述性文本，报告中的表格或许会包含更多的敏感信息，比如公司的各种财务指标等。这种含有较多表格的非结构化文档，既不同于结构化文档，也不同于非结构化文档，而是一种混合型的文档。因此在判断该类型的文档相似度时，常用于判断非结构化文档或者结构化文档的方法都不能取得很好的效果。因此如何设计一种能很好判断混合型文档相似度的方法对于数据防泄漏工程而言非常必要。

现有技术包括的文档相似度判定是文本信息处理领域的重要技术，比如：

文献1，申请号：CN201210491145.7，发明名称：一种文本相似度计算方法；

文献2，申请号：CN201410491458.1，发明名称：一种文本特征提取系统和方法。

上述现有技术存在以下缺点：

(1)没有考虑非结构化文档中结构化数据的影响。文档中的数字，比如身份证号、银行卡号、信用卡校验码、手机号码等是非常重要的数字信息，尤其在进行防数据泄露的过程中，这些特征的重要性远远大于关键词。

(2)没有考虑文档中的文档属性特征。文档的页眉，页脚，作者，备注信息等属性是判定文档相似性的重要因素。

(3)没有考虑关键字特征、正则特征和文档属性相间的文档相似度关联关系。

发明内容

为解决上述技术问题，本发明提供了一种基于文档混合特征的文档相似度判定方法，包括以下步骤：

1).对输入的文件或者数据流进行正则表达式匹配；

2).如果匹配失败，跳转到步骤7)，如果匹配成功，得到多种特征，跳转到步骤3)；

3).对每种特征的特征值进行链表管理，形成多个特征链表；