[发明专利]一种基于标题指纹与正文指纹实现相同新闻聚类的方法有效
申请号: | 201310538608.5 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103699567A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 王放 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标题 指纹 正文 实现 相同 新闻 方法 | ||
技术领域
本发明属于搜索领域,具体讲涉及一种基于标题指纹与正文指纹实现相同新闻聚类的方法。
背景技术
在资讯(或者新闻)搜索领域,常常出现链接地址不同,但内容极其相近甚至完全相同的资讯数据,我们称之为重复或近似重复。这是由于多个新闻来源网站间互相参考、互相引用甚至直接复制的情况较为普遍。由于这些重复的资讯数据中都含有类似的内容,所以通常都会命中用户的检索,而且由于内容类似,所以相关性得分也几乎相同,导致它们会集中展现在用户面前。用户看到了大量重复的数据,这无疑使得用户只能获得少量的新信息,严重影响用户体验;同时,重复数据对于索引和搜索过程来说也消耗了大量的资源。为了解决以上问题,人们希望通过一些方法,检测出重复的资讯,从而在索引很排序过程中将重复文档淘汰,以减少资讯损耗,并提供更好的用户体验。
目前计算重复资讯的方法有校验和技术、N-gram指纹计算技术、Simhash指纹技术。
校验和技术通过对资讯内容中各字节计算和。校验和技术简单易行,但只能检测内容完全相同的资讯文档。同时,含有相同文本的任意文档会得到完全相同的校验和
N-gram指纹计算技术从资讯内容中以N为步长,选择一些词串表示文档内容。N-gram指纹技术从内容中随机取长度为N的词串当作内容指纹,并没有考虑词串在全文中的重要性。
Simhash技术为每篇资讯计算出64bit的内容指纹,再通过两两比较所有数据,计算指纹差异程度,从而判断新资讯是否与已往资讯集合中的某些篇相似。Simhash需要两两计算所有文档的指纹相似度,计算量巨大,算法效率不高,不太适用于时效性要求较高的资讯搜索引擎的应用。
发明内容
针对现有技术的不足,本发明提供了一种基于标题指纹与正文指纹实现相同新闻聚类的方法。针对校验和、N-gram及Simhash在相同新闻聚类应用上的不足,设计一种简单有效的检测重复资讯的方法来进行重复新闻聚类。
本发明的目的是采用下述技术方案实现的:
一种基于标题指纹与正文指纹实现相同新闻聚类的方法,其改进之处在于,所述方法包括:
(1)标题预处理;
(2)标题指纹计算;
(3)正文预处理;
(4)计算正文中切词权重;
(5)在指纹库中查找;
(6)将新资讯信息存入指纹库;
(7)更新指纹库处理。
优选的,所述步骤(1)包括去除标题中的噪音字符,将标题中全角字符转为半角字符。
优选的,所述步骤(2)包括根据标题内容计算校验和,取一个64bit的校验和,当作标题指纹。
优选的,所述步骤(3)包括去除正文中的噪音字符,再进行归一处理。
优选的,所述步骤(4)包括取权重最大的前M个作为核心词,取权重次大的前N个作为描述词。
优选的,所述步骤(4)包括分别对M个核心词和N个描述词排序。
优选的,所述步骤(5)包括
标题指纹相同的资讯,则本篇资讯文档与之相同;
标题指纹不同的资讯,判断其核心词与描述词是否相似。
优选的,所述步骤(6)包括新资讯与指纹库中资讯均不匹配,则为新资讯分配一个内容指纹。
优选的,所述步骤(7)包括新资讯与指纹库中某一资讯类似,但二者正文并不相似则只在指纹库中保存新资讯的标题指纹,并不保存其正文。
与现有技术比,本发明的有益效果为:
(1)采用基于本发明的重复资讯识别,算法简明,效果显著。经测试,对于资讯搜 索中常见的重复情况,如直接复制、标题调整、系列新闻、内容微调的识别率达99%以上。
(2)算法首先对核心词进行匹配,快速的排除了主题不相似的文章,大大提升了识别效率,在千万级数据中识别一次的时间低于1ms。由于只保存核心词及描述词的基本信息,节约了存储空间,存储千万级数据的历史信息所消耗的空间低于500MB。
附图说明
图1为本发明提供的一种基于标题指纹与正文指纹实现相同新闻聚类的方法流程图。
图2为本发明提供的正文指纹实现相同新闻聚类的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310538608.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于关键特征的大规模编目模版迁移方法及系统
- 下一篇:一种干气密封的挡油装置