[发明专利]一种海量相似新闻查重甄选方法、系统及装置在审

申请号：	201711350335.6	申请日：	2017-12-15
公开（公告）号：	CN108280127A	公开（公告）日：	2018-07-13
发明（设计）人：	张毅	申请（专利权）人：	广州艾媒数聚信息咨询股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	胡辉
地址：	510006 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	系统及装置新闻文章重结果工作效率文章结构新闻媒体新闻源发送应用保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种海量相似新闻查重甄选方法、系统及装置，方法包括：从各个新闻源中获取新闻文章；对获取的新闻文章进行快速查重处理和关键词查重处理，得到查重结果；将查重结果发送至编辑进行处理。本发明通过快速查重和关键词查重结合进行新闻查重，从而在文章结构及文章中心思想两个层面都保证了查重的效果，在提高了查重的准确性的同时，也大大提升了工作效率，有效满足了新闻媒体行业查重的需求。本发明可广泛应用于新闻领域中。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种海量相似新闻查重甄选方法、系统及装置。

背景技术

国内比较著名的查重系统主要是用于学术上的查重，主要为毕业生的论文查重。典型的查重技术规则大致为：先根据文章结构对文章进行小段拆分，再以N个字为单元进行匹配，并设置了一定的阈值百分比，与系统中大量论文、期刊、专利等数据库进行比对，从而得出查重结果。这些系统在进行学术文章查重相当有效，多年沿用也简直证明了它是称职的系统。但网上也存在相当多的“攻略”去规避这种查重方法(最常见的方法为改头换尾，改写)，而且这种查重系统的特性也满足不了新闻媒体对于查重的需求。

不管是传统媒体还是新媒体，都对查重有着强烈而又特殊的需求：一篇新抓取过来的文章或新投过来的稿件，如何判定是否和已有文章重复呢？这种新闻文章的“重复”还和论文的重复不是一回事，首先新闻远比论文的篇幅要短，然后新闻的核心无非是时间+地点+人物+事情，围绕这个中心思想进行文章撰写。本质都是一件事，但是写法大相径庭，用论文匹配的方式去判定是无法确认是同一篇文章的。

现在多数传统媒体已拥有自己的数据库，最通常而简单的查重和搜索方式是在数据库对标题执行like相关字段进行查询，能把带对应关键词的标题的文章搜索出来。然而这种方法存在一定弊端，如：在标题党横行的今天，仅通过标题特定关键词进行搜索，效果越来越不显著；待转型到互联网+的传统媒体以及新媒体，稿件的来源不再限于记者编辑，而是爬虫抓取回来的海量文章，在性能上也越来越捉襟见肘。

发明内容

为了解决上述技术问题，本发明的目的是提供一种高效准确的海量相似新闻查重甄选方法、系统及装置。

本发明所采取的技术方案是：

一种海量相似新闻查重甄选方法，包括以下步骤：

从各个新闻源中获取新闻文章；

对获取的新闻文章进行快速查重处理和关键词查重处理，得到查重结果；

将查重结果发送至编辑进行处理。

作为所述的一种海量相似新闻查重甄选方法的进一步改进，所述的快速查重处理，这一步骤具体包括：

对新闻文章进行分词，得到特征单词；

将得到的特征单词进行去掉噪音词处理后，根据预设的规则对每个词设置对应的权重；

对特征单词进行哈希值计算，得到每个特征单词对应的哈希值；

根据各特征单词对应的哈希值和权值，进行加权计算得到各特征单词对应的加权数字串；