[发明专利]网络文章相似度检测方法和装置、服务器及存储介质在审

专利信息
申请号: 201711231935.0 申请日: 2017-11-29
公开(公告)号: CN107729323A 公开(公告)日: 2018-02-23
发明(设计)人: 肖丹;陈志群;陈锦冰;陈翔 申请(专利权)人: 深圳中泓在线股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 深圳市港湾知识产权代理有限公司44258 代理人: 微嘉
地址: 518000 广东省深圳市南山区西*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 文章 相似 检测 方法 装置 服务器 存储 介质
【说明书】:

技术领域

发明涉及信息检索领域,尤其是一种网络文章相似度检测方法和装置、服务器及存储介质。

背景技术

现如今在对互联网舆情信息进行解读的时候,常常会遇到不同的网站对某一篇文章进行转载,或者转载后进行微小的改编,从而使读者难免重复浏览相似的文章,浪费查阅时间。

发明内容

本发明的主要目的是提供一种网络文章相似度检测方法和装置、服务器及存储介质,旨在避免读者重复浏览相似的文章,节约查阅时间。

为实现上述目的,本发明提出一种网络文章相似度检测方法,包括以下步骤:

对两篇待判定文章的文本进行分词,得到两篇待判定文章的特征词条;

计算特征词条的哈希值;

对应两篇待判定文章分别建立数列,根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布;

根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度,相似度达到预设阈值则判断为相似文章。

优选地,对两篇待判定文章的文本进行分词,得到两篇待判定文章的特征词条的步骤,包括:

对两篇待判定文章的文本进行分词;

判断分词后得到的词条是否为高频词;

剔除高频词后将余下的词条归为特征词条。

优选地,所述高频词为在词语频率表中词频数值高于预设阈值的词条。

优选地,计算特征词条的哈希值的步骤,包括:

建立汉字集合;

建立2的n次方个数据组,其中n大于5,并将所述汉字集合中的汉字平均分配到各个数据组中;

对各个数据组进行编号;

判断特征词条为单个汉字或是词组:

若特征词条为单个汉字,特征词条的哈希值为所在数据组的编号数值;

若特征词条为词组,记特征词条的首位汉字哈希值为A,特征词条的末位汉字哈希值为B,其中,A和B是由n位bit组成的数值,取A的前a位bit值和B的后(n-a)位bit值合成特征词条的哈希值,其中,a为整数且n>a>0。

优选地,所述n的值为9,所述数据组的数量为512个。

优选地,对应两篇待判定文章分别建立数列,根据两篇待判定文章中特征词条的哈希值和预设算法改变数列中数字的排列分布的步骤,包括:

对应两篇待判定文章分别建立长度为2的n次方个bit的数列,其中,每位bit值均为0;

取两篇待判定文章中前m个词语的哈希值记为(h1,h2,h3,...,hm);

将数列中(h1,h2,h3,...,hm)位bit值改为1,得到两篇待判定文章的数列。

优选地,根据两篇待判定文章的数列的相似度比较待判定文章之间的相似度,相似度达到预设阈值则判断为相似文章的步骤,包括:

对比两篇待判定文章的数列S1和S2,记S1和S2均为1的bit位的个数为x,S1和S2中至少存在一个数值为1的bit位的个数为y;

计算两篇待判定文章的相似度为x/y;

判断x/y是否大于预设阈值:若是,则两篇文章是相似文章;若否,则两篇文章不是相似文章。

本发明提出一种网络文章相似度检测装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络文章相似度检测方法的程序,所述网络文章相似度检测方法的程序被所述处理器执行时实现如以上所述的网络文章相似度检测方法的步骤。

本发明提出一种服务器,包括如以上所述的网络文章相似度检测装置。

本发明提出一种存储介质,所述存储介质上存储有网络文章相似度检测方法的程序,所述网络文章相似度检测方法的程序被处理器执行时实现如以上所述的网络文章相似度检测方法的步骤。

本发明技术方案根据待判定文章中特征词条的哈希值通过预设方式比较待判定文章之间的相似度,再通过比较相似度与预定阈值之间的大小关系判断出待判定文章是否相似,从而节约了读者的查阅时间,避免重复浏览相似的文章。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明提供的网络文章相似度检测方法的第一实施例的流程示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中泓在线股份有限公司,未经深圳中泓在线股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711231935.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top