[发明专利]一种基于改进的simhash文本对比方法在审

专利信息
申请号: 201810535318.8 申请日: 2018-05-30
公开(公告)号: CN108776654A 公开(公告)日: 2018-11-09
发明(设计)人: 杜庆治;陈鸣;邵玉斌;龙华 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 准确率 文本对比 词性 权重 计算公式 文章标题 分词 标注 改进 改造
【权利要求书】:

1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:

S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;

S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;

S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:

①计算被查文章分词后每个词的词频:

TF=n1/n2

其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;

②计算逆向文档频率IDF:

其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;

③词的权重:

TF_IDF=TF*IDF

其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;

S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;

S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;

S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;

S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;

S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。

2.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S6中,进行累加时,累加结果不进位。

3.根据权利要求1所述的基于改进的simhash文本对比方法,其特征在于:所述步骤S8中,汉明距离小于33,则判定两者相似。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810535318.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top