[发明专利]重复文本的检测方法及装置在审
申请号: | 201611108388.2 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106649221A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 刘鹏;赵杰;韦强申;李强 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 胡彬,邓猛烈 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 文本 检测 方法 装置 | ||
技术领域
本发明实施例涉及大数据分析技术领域,尤其涉及一种重复文本的检测方法及装置。
背景技术
在互联网大规模普及的今天,各种资源呈爆炸式增长,越来越庞大的互联网促进了搜索引擎技术的不断发展,使它越来越成为人们从网络上获取信息的主要手段。但是,互联网上有大量的重复网页信息。为了提高搜索引擎提供的搜索结果的有效性,文本的重复检测就成为了互联网企业提高搜索引擎质量的关键技术。
在文本的重复检测技术中,一种十分常用的技术就是基于哈希算法而完成的。这种技术已经相当成熟,运行效率和鲁棒性都是能够满足搜索引擎目前的需要。当时,利用哈希算法完成的文本重复检测有一个缺点,就是在面对短文本的重复检测时,会出现运行效率不高的情况。
发明内容
针对上述技术问题,本发明实施例提供了一种重复文本的检测方法及装置,以实现对短文本的有效的重复检测处理。
一方面,本发明实施例提供了一种重复文本的检测方法,所述方法包括:
获取待检测文本;
将所述待检测文本区分为短文本及长文本;
对所述短文本采用基于文本关联的重复检测;
对所述长文本采用基于局部敏感哈希算法的重复检测。
另一方面,本发明实施例还提供了一种重复文本的检测装置,所述装置包括:
文本获取模块,用于获取待检测文本;
文本区分模块,用于将所述待检测文本区分为短文本及长文本;
短文本检测模块,用于对所述短文本采用基于文本关联的重复检测;
长文本检测模块,用于对所述长文本采用基于局部敏感哈希算法的重复检测。
本发明实施例提供的重复文本的检测方法及装置,通过获取待检测文本,将所述待检测文本区分为短文本及长文本,对所述短文本采用基于文本关联的重复检测,对所述长文本采用基于局部敏感哈希算法的重复检测,实现了对短文本的有效的重复检测处理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的重复文本的检测方法的流程图;
图2是本发明第二实施例提供的重复文本的检测装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
第一实施例
本实施例提供了重复文本的检测方法的一种技术方案。
参见图1,重复文本的检测方法包括:
S11,获取待检测文本。
上述对待检测文本的获取可以是通过网络爬虫程序由互联网获取,也可以是从指定的语料数据库中获取。
如果通过上述获取手段获取到的待检测文本的正确性难以判断,则一般在获取到原始的待检测文本之后还需要对原始的文本进行一次数据清洗的操作。经过数据清洗之后,保留下来的待检测文本就是进行重复文本检测的原始语料。
S12,将所述待检测文本区分为短文本及长文本。
优选的,可以根据实际的检测需要预先构造对短文本及长文本进行区分的区分规则。在实际进行短文本及长文本区分时,应用上述规则。
更为优选的,可以预先设定一个区分短文本及长文本的文本长度阈值,当待检测文本的文本长度大于这个长度阈值时,待检测文本是长文本,而当待检测文本的文本长度小于或者这个等于这个长度阈值时,待检测文本是短文本。
需要理解的是,构建的区分规则可以不仅仅以上述列举的长度参数作为判定要素,还可以引入除文本长度以外的其他参数作为判定要素。比如,可以将文本内容作为上述区分规则中的判定要素之一。
另外,还可以以预先构建的分类器完成对短文本及长文本的区分。如果以分类器完成长短文本的区分,则分类器的输入参数可以有多种。比如,分类器的输入参数可以包括:文本长度、特征语段等。
S13,对所述短文本采用基于文本关联的重复检测。
由于对待检测的短文本直接应用哈希算法,会出现运行效率不高的情况,在本实施例中,采用首先将待检测的短文本关联至一个长文本,再根据对长文本应用哈希算法的重复检测结果,判断待检测的短文本是否出现了重复。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611108388.2/2.html,转载请声明来源钻瓜专利网。