[发明专利]一种基于改进的simhash文本对比方法在审
| 申请号: | 201810535318.8 | 申请日: | 2018-05-30 |
| 公开(公告)号: | CN108776654A | 公开(公告)日: | 2018-11-09 |
| 发明(设计)人: | 杜庆治;陈鸣;邵玉斌;龙华 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 准确率 文本对比 词性 权重 计算公式 文章标题 分词 标注 改进 改造 | ||
1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:
S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;
S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;
S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:
①计算被查文章分词后每个词的词频:
TF=n1/n2
其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;
②计算逆向文档频率IDF:
其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;
③词的权重:
TF_IDF=TF*IDF
其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;
S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;
S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;
S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;
S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;
S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
2.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S6中,进行累加时,累加结果不进位。
3.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S8中,汉明距离小于33,则判定两者相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810535318.8/1.html,转载请声明来源钻瓜专利网。





