[发明专利]文档的重复性识别方法、装置、电子设备以及存储介质在审
申请号: | 202110341532.1 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112926314A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 林妙真;陈文森;李木海;林倩;林宜领;朱富荣 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/44 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 重复性 识别 方法 装置 电子设备 以及 存储 介质 | ||
1.一种文档的重复性识别方法,其特征在于,包括:
提取目标文档的至少两个目标词语,并根据所述至少两个目标词语,构建所述目标文档的目标词语序列;其中,所述目标词语至少包括所述目标文档中的名词、动词和数量词;
确定所述目标词语序列中每个字的独热编码向量;
根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量;
根据其他文档的特征向量与所述目标文档的特征向量之间的距离,确定所述目标文档的重复性。
2.根据权利要求1所述的方法,其特征在于,确定所述目标词语序列中每个字的独热编码向量,包括:
对于每个字,基于设定字符序列,对该字关联的目标字符进行独热编码,得到该字的独热编码向量;其中,设定字符序列包括声母和数字。
3.根据权利要求1所述的方法,其特征在于,根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量,包括:
基于设定滑动窗口,遍历所述目标词语序列,得到至少两个词语片段;
根据所述目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量;
根据所述至少两个词语片段的词语特征向量,确定所述目标文档的特征向量。
4.根据权利要求3所述的方法,其特征在于,根据所述目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量,包括:
对于每一词语片段,确定该词语片段中每个字在所述目标文档中的出现频次;
根据该词语片段中每个字在所述目标文档中的出现频次,以及该词语片段中每个字的独热编码向量,确定该词语片段的词语特征向量。
5.根据权利要求4所述的方法,其特征在于,根据该词语片段中每个字在所述目标文档中的出现频次,以及该词语片段中每个字的独热编码向量,确定该词语片段的词语特征向量,包括:
将该词语片段中每个字的独热编码向量进行映射变换,得到该词语片段中每个字的字特征向量;
根据所述该词语片段中每个字的字特征向量,以及该词语片段中每个字在所述目标文档中的出现频次,得到该词语片段的词语特征向量。
6.根据权利要求3所述的方法,其特征在于,根据所述至少两个词语片段的词语特征向量,确定所述目标文档的特征向量,包括:
将所述至少两个词语片段的词语特征向量按行拼接,得到所述目标文档的中间向量;
对所述目标文档的中间向量按列求和,得到所述目标文档的行向量;
对所述行向量按位进行映射变换,得到所述目标文档的特征向量。
7.根据权利要求1所述的方法,其特征在于,根据其他文档的特征向量与所述目标文档的特征向量之前的距离,确定目标文档的重复性,包括:
将所述其他文档的特征向量拼接成数字,得到所述其他文档的特征签名;
将所述目标文档的特征向量拼接成数字,得到所述目标文档的特征签名;
根据所述其他文档的特征签名和所述目标文档的特征签名之间的距离,确定所述目标文档的重复性。
8.根据权利要求1所述的方法,其特征在于,还包括:
确定目标文档的全局签名和局部签名;
将文档集中与所述目标文档的全局签名不同且局部签名相同的文档,作为所述目标文档的其他文档。
9.根据权利要求8所述的方法,其特征在于,确定目标文档的局部签名,包括:
确定所述目标文档的至少两个关键词;其中,所述关键词至少包括名词和动词;
对所述至少两个关键词进行哈希运算,得到所述目标文档的局部签名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110341532.1/1.html,转载请声明来源钻瓜专利网。