[发明专利]一种基于改进的simhash文本对比方法在审

专利信息
申请号: 201810535318.8 申请日: 2018-05-30
公开(公告)号: CN108776654A 公开(公告)日: 2018-11-09
发明(设计)人: 杜庆治;陈鸣;邵玉斌;龙华 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于改进的simhash文本对比方法,属于查重领域。本发明对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。
搜索关键词: 准确率 文本对比 词性 权重 计算公式 文章标题 分词 标注 改进 改造
【主权项】:
1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:①计算被查文章分词后每个词的词频:TF=n1/n2其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;②计算逆向文档频率IDF:其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;③词的权重:TF_IDF=TF*IDF其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810535318.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top