[发明专利]一种文档的去重方法、设备及可读介质有效
申请号: | 201910373004.7 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110134852B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 冯博琳 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王雪霞 |
地址: | 100028 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 方法 设备 可读 介质 | ||
1.一种文档的去重方法,其特征在于,包括:
采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征;
采用神经网络策略从所述第一文档和所述第二文档中提取来自神经网络的特征;
根据所述来自特征工程的特征和所述来自神经网络的特征计算所述第一文档和所述第二文档的综合相似度;
根据所述综合相似度确定所述第一文档与所述第二文档是否重复,
其中,所述来自特征工程的特征和所述来自神经网络的特征均为用于表示所述第一文档和所述第二文档之间相似程度的特征。
2.根据权利要求1所述的方法,其特征在于,所述的方法还包括:
计算文档集中待去重文档之间的文档对相似度;
根据所述文档对相似度获取待去重文档对,所述文档对相似度用于表示所述待去重文档对中待去重文档之间的相似程度,
所述待去重文档对包括所述第一文档和所述第二文档。
3.根据权利要求2所述的方法,其特征在于,所述来自特征工程的特征包括第一特征和第二特征;
所述采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征包括:
基于所述第一文档的语意、所述第二文档的语意以及所述第一文档与所述第二文档之间的距离获取所述第一特征,
基于分别与所述第一文档和所述第二文档相匹配的所述待去重文档对获取所述第二特征。
4.根据权利要求3所述的方法,其特征在于,
所述基于分别与所述第一文档和所述第二文档相匹配的所述待去重文档对获取所述第二特征包括:
将与所述第一文档相匹配的所述待去重文档对的数量、与所述第二文档相匹配的所述待去重文档对的数量,以及分别与所述第一文档和所述第二文档相匹配的所述待去重文档中重复的所述待去重文档的数量作为所述第二特征。
5.根据权利要求1-3中任意一项所述的方法,其特征在于,所述来自神经网络的特征包括第三特征和第四特征;
所述根据神经网络策略从所述第一文档和所述第二文档中提取来自神经网络的特征包括:
根据预先训练好的提取模型从所述第一文档和所述第二文档中获取所述第三特征和所述第四特征,
所述第三特征为用于表示所述第一文档和所述第二文档之间距离的特征,
所述第四特征为用于表示所述第一文档和所述第二文档之间相似度的特征。
6.根据权利要求5所述的方法,其特征在于,所述来自特征工程的特征包括第一特征和第二特征;
所述根据所述来自特征工程的特征和所述来自神经网络的特征计算所述第一文档和所述第二文档的综合相似度包括:
采用所述神经网络将所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行特征融合后计算所述第一文档和所述第二文档的综合相似度。
7.根据权利要求2所述的方法,其特征在于,所述根据所述综合相似度确定所述第一文档与所述第二文档是否重复包括:
若所述综合相似度符合预设的重复阈值,则判定包含所述第一文档与所述第二文档的待去重文档对为重复文档对;
根据所述重复文档对确定所述第一文档与所述第二文档是否重复。
8.一种文档的去重装置,其特征在于,包括:
第一提取模块,用于采用特征工程策略从第一文档和第二文档中提取来自特征工程的特征;
第二提取模块,采用神经网络策略从所述第一文档和所述第二文档中提取来自神经网络的特征;
综合相似度生成模块,根据所述来自特征工程的特征和所述来自神经网络的特征计算所述第一文档和所述第二文档的综合相似度;
重复性判定模块,根据所述综合相似度确定所述第一文档与所述第二文档是否重复,
其中,所述来自特征工程的特征和所述来自神经网络的特征均为用于表示所述第一文档和所述第二文档之间相似程度的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910373004.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于领域内网的搜索引擎系统及构建方法
- 下一篇:数据爬取方法及系统