[发明专利]一种基于文档混合特征的文档相似度判定方法和装置有效
申请号: | 201711041146.0 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107656909B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 魏效征;王志海;喻波;安鹏 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文档 混合 特征 相似 判定 方法 装置 | ||
1.一种基于文档混合特征的文档相似度判定方法,包括以下步骤:
1).对输入的文件或者数据流进行正则表达式匹配;
2).如果匹配失败,跳转到步骤7),如果匹配成功,得到多种特征,跳转到步骤3);
3).对每种特征的特征值进行链表管理,形成多个特征链表;
4).由所述多个特征链表中的特征值及其在链表中的位置构成多个特征序列;
5).计算序列之间的相似度;
6).输出相似度判定结果;
7).结束;
所述步骤6)在输出相似度判定结果之前结合文档属性判断序列之间的相似度;所述文档属性包括:文档作者、标题、摘要、页眉和页脚;
所述步骤6)之后,还需要将判定结果输入到深度学习或SVM模块,获取判定模型。
2.根据权利要求1所述的方法,步骤2)中如果匹配成功,需要对特征值进行再处理,去除伪特征值。
3.根据权利要求1所述的方法,所述步骤5)中通过计算序列之间的K-D距离或者汉明距离判断序列之间的相似度。
4.一种基于文档混合特征的文档相似度判定装置,包括:
正则表达式匹配模块,对输入的文件或者数据流进行正则表达式匹配,得到多种特征;
链表管理模块,对每种特征的特征值进行链表管理,形成多个特征链表;
特征序列生成模块,由所述多个特征链表中的特征值及其在链表中的位置构成多个特征序列;
相似度计算模块,计算序列之间的相似度;
结果输出模块,输出相似度判定结果;
结果输出模块在输出相似度判定结果之前结合文档属性判断序列之间的相似度;所述文档属性包括:文档作者、标题、摘要、页眉和页脚;
还包括判定模型形成模块,需要将判定结果输入到深度学习或SVM模块,获取判定模型。
5.根据权利要求4所述的装置,还包括特征再处理模块,对特征值进行再处理,去除伪特征值。
6.一种计算机存储介质,其包括有计算机程序指令,通过执行所述计算机程序指令,实现权利要求1-3之一的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711041146.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微型压力传感器
- 下一篇:带有报警功能的挤出机进料装置