[发明专利]一种海量相似新闻查重甄选方法、系统及装置在审
申请号: | 201711350335.6 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108280127A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 张毅 | 申请(专利权)人: | 广州艾媒数聚信息咨询股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510006 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 系统及装置 新闻文章 重结果 工作效率 文章结构 新闻媒体 新闻源 发送 应用 保证 | ||
本发明公开了一种海量相似新闻查重甄选方法、系统及装置,方法包括:从各个新闻源中获取新闻文章;对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;将查重结果发送至编辑进行处理。本发明通过快速查重和关键词查重结合进行新闻查重,从而在文章结构及文章中心思想两个层面都保证了查重的效果,在提高了查重的准确性的同时,也大大提升了工作效率,有效满足了新闻媒体行业查重的需求。本发明可广泛应用于新闻领域中。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种海量相似新闻查重甄选方法、系统及装置。
背景技术
国内比较著名的查重系统主要是用于学术上的查重,主要为毕业生的论文查重。典型的查重技术规则大致为:先根据文章结构对文章进行小段拆分,再以N个字为单元进行匹配,并设置了一定的阈值百分比,与系统中大量论文、期刊、专利等数据库进行比对,从而得出查重结果。这些系统在进行学术文章查重相当有效,多年沿用也简直证明了它是称职的系统。但网上也存在相当多的“攻略”去规避这种查重方法(最常见的方法为改头换尾,改写),而且这种查重系统的特性也满足不了新闻媒体对于查重的需求。
不管是传统媒体还是新媒体,都对查重有着强烈而又特殊的需求:一篇新抓取过来的文章或新投过来的稿件,如何判定是否和已有文章重复呢?这种新闻文章的“重复”还和论文的重复不是一回事,首先新闻远比论文的篇幅要短,然后新闻的核心无非是时间+地点+人物+事情,围绕这个中心思想进行文章撰写。本质都是一件事,但是写法大相径庭,用论文匹配的方式去判定是无法确认是同一篇文章的。
现在多数传统媒体已拥有自己的数据库,最通常而简单的查重和搜索方式是在数据库对标题执行like相关字段进行查询,能把带对应关键词的标题的文章搜索出来。然而这种方法存在一定弊端,如:在标题党横行的今天,仅通过标题特定关键词进行搜索,效果越来越不显著;待转型到互联网+的传统媒体以及新媒体,稿件的来源不再限于记者编辑,而是爬虫抓取回来的海量文章,在性能上也越来越捉襟见肘。
发明内容
为了解决上述技术问题,本发明的目的是提供一种高效准确的海量相似新闻查重甄选方法、系统及装置。
本发明所采取的技术方案是:
一种海量相似新闻查重甄选方法,包括以下步骤:
从各个新闻源中获取新闻文章;
对获取的新闻文章进行快速查重处理和关键词查重处理,得到查重结果;
将查重结果发送至编辑进行处理。
作为所述的一种海量相似新闻查重甄选方法的进一步改进,所述的快速查重处理,这一步骤具体包括:
对新闻文章进行分词,得到特征单词;
将得到的特征单词进行去掉噪音词处理后,根据预设的规则对每个词设置对应的权重;
对特征单词进行哈希值计算,得到每个特征单词对应的哈希值;
根据各特征单词对应的哈希值和权值,进行加权计算得到各特征单词对应的加权数字串;
将各特征单词的加权数字串进行累加,得到该新闻文章对应的序列值;
对该新闻文章对应的序列值进行降维处理,得到该新闻文章对应的文章签名;
根据该新闻文章的文章签名和文章长度,查找与该新闻文章重复的新闻文章,得到查重结果。
作为所述的一种海量相似新闻查重甄选方法的进一步改进,所述的关键词查重处理,这一步骤具体包括:
对获取的新闻文章中的文章内容和文章标题进行结巴分词处理,得到分词结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州艾媒数聚信息咨询股份有限公司,未经广州艾媒数聚信息咨询股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711350335.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大数据分析处理方法
- 下一篇:一种展示个性化页面的方法及设备