[发明专利]文本相似性比较方法及系统在审
申请号: | 201210142651.5 | 申请日: | 2012-05-09 |
公开(公告)号: | CN103389987A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 高峰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 王江富 |
地址: | 大开曼资本*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似性 比较 方法 系统 | ||
技术领域
本申请涉及信息技术,尤其涉及一种文本相似性比较方法及系统。
背景技术
随着网络通信技术的发展,使得人们可以接受到即时的、最新的消息;但同时随着网络的普及、网上的信息量越来越大,不仅对计算机对这些海量信息的获取、存储及实时分析处理能力提出了严峻的挑战,也给人们在搜索信息时的准确性和可靠性带来了一定的难度;
伴随着三网融合的进程,互联网中文本形式变得多样化,普通网页所占比例越来越小。微博、WAP、评论、短信等内容比例会逐渐提高。同普通网页类似,这类文本中也存在大量的相同或极为相似的内容。
类似论坛,博客这些文本发布类网站,每天都会面临大量重复文本(如广告)的问题。大量垃圾信息会干扰用户正常访问,带来糟糕的用户体验,所以如何对文本的相似性进行比较,以防治重复类文本等问题,是非常重要的。
常见的文本相似性比较的技术方案是,首先对各待分析文件进行预处理,然后提取各待分析文件的各特征向量及各特征向量的值,特征向量的值的大小反映的是该特征向量对文本特征贡献的重要程度,对各特征向量的值进行归一化后,采用余弦相似性、相关相似性、调整余弦相似性等相似度计算方法,根据各待分析文件的各特征向量及各特征向量的值,得到各待分析文件间的相似度。
特征向量可以最有效地刻划一份文本的特征,但某些特征向量会受到额外的噪声的干扰而失去有效性,但是许多提取文本特征向量的方法,通常是强调在待分析文件中出现次数较多,而在全局考察样本中较少出现的词语对文本特征向量的贡献,无法考虑到某些特征向量会受到额外的噪声的干扰而失去有效性。例如常见的TF-IDF(term frequency–inverse document frequency)方式提取的文本特征向量,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此恶意破坏者只要简单在文本开头贴一段诸如佛经、史记上的文字,就可以干扰常见的文本相似性比较系统的判断。因为根据TF-IDF打分特征,TF-IDF会认为这些文字对于全局的意义更为重要。即使排除恶意破坏的场景,直接分析线上实际样本,我们也可以看到,大量广告帖的特征只存在局部差异:比方说,机票广告会存在大段相同文本,但只有在开头的往返地上存在差异。
发明内容
本申请要解决的技术问题是,准确判断文本的相似性。
为解决上述技术问题,本申请提供了一种文本相似性比较方法,包括以下步骤,
一.提取各待分析文件的各特征向量及各特征向量的值;
二.将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
三.根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
为解决上述技术问题,本申请还提供了一种文本相似性比较系统,包括:
一文件特征向量提取模块,用于提取各待分析文件的各特征向量及各特征向量的值;
一削峰处理模块,用于将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
一相似度分析模块,用于根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
本申请的文本相似性比较方法及系统,在得到各待分析文件的特征向量后,采取削峰的做法,抛弃若干个值最大的文本特征向量,如果待分析文件存在刻意干扰的文本信息,由于刻意干扰的文本信息所涉及的特征向量的值通常较大,刻意干扰的文本信息所涉及的特征向量通常就可以在这个环节被移除,使多个受到额外的干扰而失去有效性的特征向量不至于对文本相似性分析造成影响,从而更准确判断各待分析文件间的相似性。
附图说明
为了更清楚地说明本申请的技术方案,下面对本申请所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的文本相似性比较方法一实施例的示意图;
图2是本申请的文本相似性比较系统一实施例的示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210142651.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高频低损耗软磁铁氧体磁芯材料及其制备方法
- 下一篇:早实薄皮核桃芽接方法