[发明专利]一种海量相似新闻查重甄选方法、系统及装置在审

专利信息
申请号: 201711350335.6 申请日: 2017-12-15
公开(公告)号: CN108280127A 公开(公告)日: 2018-07-13
发明(设计)人: 张毅 申请(专利权)人: 广州艾媒数聚信息咨询股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 胡辉
地址: 510006 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 系统及装置 新闻文章 重结果 工作效率 文章结构 新闻媒体 新闻源 发送 应用 保证
【说明书】:

本发明公开了一种海量相似新闻查重甄选方法、系统及装置,方法包括:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。本发明通过快速查重和关键词查重结合进行新闻查重,从而在文章结构及文章中心思想两个层面都保证了查重的效果,在提高了查重的准确性的同时,也大大提升了工作效率,有效满足了新闻媒体行业查重的需求。本发明可广泛应用于新闻领域中。

技术领域

本发明涉及文本处理技术领域,尤其涉及一种海量相似新闻查重甄选方法、系统及装置。

背景技术

国内比较著名的查重系统主要是用于学术上的查重,主要为毕业生的论文查重。典型的查重技术规则大致为:先根据文章结构对文章进行小段拆分,再以N个字为单元进行匹配,并设置了一定的阈值百分比,与系统中大量论文、期刊、专利等数据库进行比对,从而得出查重结果。这些系统在进行学术文章查重相当有效,多年沿用也简直证明了它是称职的系统。但网上也存在相当多的“攻略”去规避这种查重方法(最常见的方法为改头换尾,改写),而且这种查重系统的特性也满足不了新闻媒体对于查重的需求。

不管是传统媒体还是新媒体,都对查重有着强烈而又特殊的需求:一篇新抓取过来的文章或新投过来的稿件,如何判定是否和已有文章重复呢?这种新闻文章的“重复”还和论文的重复不是一回事,首先新闻远比论文的篇幅要短,然后新闻的核心无非是时间+地点+人物+事情,围绕这个中心思想进行文章撰写。本质都是一件事,但是写法大相径庭,用论文匹配的方式去判定是无法确认是同一篇文章的。

现在多数传统媒体已拥有自己的数据库,最通常而简单的查重和搜索方式是在数据库对标题执行like相关字段进行查询,能把带对应关键词的标题的文章搜索出来。然而这种方法存在一定弊端,如:在标题党横行的今天,仅通过标题特定关键词进行搜索,效果越来越不显著;待转型到互联网+的传统媒体以及新媒体,稿件的来源不再限于记者编辑,而是爬虫抓取回来的海量文章,在性能上也越来越捉襟见肘。

发明内容

为了解决上述技术问题,本发明的目的是提供一种高效准确的海量相似新闻查重甄选方法、系统及装置。

本发明所采取的技术方案是:

一种海量相似新闻查重甄选方法,包括以下步骤:

从各个新闻源中获取新闻文章;

对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;

将查重结果发送至编辑进行处理。

作为所述的一种海量相似新闻查重甄选方法的进一步改进,所述的快速查重处理,这一步骤具体包括:

对新闻文章进行分词,得到特征单词;

将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;

对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;

根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;

将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;

对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;

根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。

作为所述的一种海量相似新闻查重甄选方法的进一步改进,所述的关键词查重处理,这一步骤具体包括:

对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州艾媒数聚信息咨询股份有限公司,未经广州艾媒数聚信息咨询股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711350335.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top