[发明专利]一种文本去重方法及系统有效

申请号：	201810134643.3	申请日：	2018-02-09
公开（公告）号：	CN108345586B	公开（公告）日：	2021-04-02
发明（设计）人：	孙世通;刘德彬;万杰;严开;陈玮	申请（专利权）人：	重庆电信系统集成有限公司;重庆誉存大数据科技有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/284
代理公司：	重庆志合专利事务所(普通合伙) 50210	代理人：	胡荣珲
地址：	400021 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本去重方法，包括以下步骤，目标文本数据预处理步骤；生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤；去重步骤。本发明针对网络文本独有的特性，在应用SimHash算法的策略上做出调整，在以新闻文本背后事件为主体进行去重时，获得更优效果与更高鲁棒性。

技术领域

本发明涉及信息处理领域，具体涉及一种文本去重方法及系统。

背景技术

文本去重技术在海量数据采集阶段被广泛地应用，任何一家大数据公司都无法绕开这个问题。当前主流的文本去重方案大致可分为以下两种：

1基于文本特征向量的相似度匹配

2利用基于分词结果的SimHash实现距离度量

但在识别文本背后的相同事件时，局部少量篇章的引用等现象将会影响最终结果，造成误判、漏判等现象。

现有技术基于文本特征向量的相似度匹配，运用LSI、LDA算法或one-hot的方式将文本表征为特定维度的文本向量，两两之间计算相似度，运算开销非常大，效率低下。

现有技术运用SimHash对整篇文本生成hashcode，simhash是locality sensitivehash(局部敏感哈希)的一种，最早由Moses Charikar在《similarity estimationtechniques from rounding algorithms》一文中提出。Google就是基于此算法实现网页文件查重的。hashcode的相似程度能直接反映输入内容的相似程度。目前主流的SimHash特征是基于中文分词的。现有技术在处理以事件为主体的去重任务时，较低相似度的两篇文章也有可能指代同一事件，这会导致漏判。这一现象主要体现在网络文本标题、摘要、正文骨干语句的个别引用现象。

发明内容

为了解决上述问题，本发明提供一种文本去重方法，包括以下步骤，

目标文本数据预处理；

生成目标文本正文局部敏感哈希值和生成目标文本标题局部敏感哈希值；

去重步骤。

进一步的，目标文本数据预处理包括，

去除目标文本中的停用词，获取目标文本标题分词信息，获取目标文本正文断句信息；

生成目标文本标题局部敏感哈希值，分词权重按以下公式获取，

其中N为正文特征数量，M为标题特征数量，β为预先设定的参数；

生成目标文本正文局部敏感哈希值，句子权重按以下公式获取，

Wsententce-i＝(N-pos)^α,α∈(0,1]，

其中N为正文特征数量，M为标题特征数量，α为预先设定的参数，pos为语句在正文中的顺序下标。