[发明专利]一种基于文档混合特征的文档相似度判定方法和装置有效
申请号: | 201711041146.0 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107656909B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 魏效征;王志海;喻波;安鹏 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文档 混合 特征 相似 判定 方法 装置 | ||
本发明公开了一种基于文档混合特征的文档相似度判定方法和装置,该方法包括以下步骤:对输入的文件或者数据流进行正则表达式匹配;如果匹配失败,则结束,如果匹配成功,对正则表达式匹配输出的多个特征字符串进行特征再处理;分别对特征再处理的多个结果进行链表管理,形成多个特征链表;对多个特征链表进行链表遍历和特征归并处理;输出相似度判定结果。通过本方案,大大提高结构化文档中表格数据的识别能力,可以大幅度条excel表格类型的文档相似度的判定能力,速度更快,容易理解,适合实际业务需要,为数据管控提供了坚实的技术能力。
技术领域
本发明涉及计算机搜索领域,具体涉及一种基于文档混合特征的文档相似度判定方法和装置。
背景技术
文档相似度判定广泛应用于互联搜索、舆情报告、企业分级分类等各种应用中。因此无论是结构化的表格类型的文档,还是非结构型的字符类文档,都有较多的文本相似识别的方法。
然而,含有表格的文档是企业日常业务中常用的常用格式,往往会包含企业较多的业务信息或敏感数据。例如一份财务报告中,除去描述性文本,报告中的表格或许会包含更多的敏感信息,比如公司的各种财务指标等。这种含有较多表格的非结构化文档,既不同于结构化文档,也不同于非结构化文档,而是一种混合型的文档。因此在判断该类型的文档相似度时,常用于判断非结构化文档或者结构化文档的方法都不能取得很好的效果。因此如何设计一种能很好判断混合型文档相似度的方法对于数据防泄漏工程而言非常必要。
现有技术包括的文档相似度判定是文本信息处理领域的重要技术,比如:
文献1,申请号:CN201210491145.7,发明名称:一种文本相似度计算方法;
文献2,申请号:CN201410491458.1,发明名称:一种文本特征提取系统和方法。
上述现有技术存在以下缺点:
(1)没有考虑非结构化文档中结构化数据的影响。文档中的数字,比如身份证号、银行卡号、信用卡校验码、手机号码等是非常重要的数字信息,尤其在进行防数据泄露的过程中,这些特征的重要性远远大于关键词。
(2)没有考虑文档中的文档属性特征。文档的页眉,页脚,作者,备注信息等属性是判定文档相似性的重要因素。
(3)没有考虑关键字特征、正则特征和文档属性相间的文档相似度关联关系。
发明内容
为解决上述技术问题,本发明提供了一种基于文档混合特征的文档相似度判定方法,包括以下步骤:
1).对输入的文件或者数据流进行正则表达式匹配;
2).如果匹配失败,跳转到步骤7),如果匹配成功,得到多种特征,跳转到步骤3);
3).对每种特征的特征值进行链表管理,形成多个特征链表;
4).由所述多个特征链表中的特征值及其在链表中的位置构成多个特征序列;
5).计算序列之间的相似度;
6).输出相似度判定结果;
7).结束。
根据本发明的实施例,优选的,步骤2)中如果匹配成功,需要对特征值进行再处理,去除伪特征值。
根据本发明的实施例,优选的,所述步骤5)中通过计算序列之间的K-D距离或者汉明距离判断序列之间的相似度。
根据本发明的实施例,优选的,所述步骤6)在输出相似度判定结果之前结合文档属性判断序列之间的相似度。
根据本发明的实施例,优选的,所述步骤6)之后,还需要将判定结果输入到深度学习或SVM模块,获取判定模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711041146.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微型压力传感器
- 下一篇:带有报警功能的挤出机进料装置