[发明专利]文本相似性比较方法及系统在审
申请号: | 201210142651.5 | 申请日: | 2012-05-09 |
公开(公告)号: | CN103389987A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 高峰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 王江富 |
地址: | 大开曼资本*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似性 比较 方法 系统 | ||
1.一种文本相似性比较方法,其特征在于,包括以下步骤,
一.提取各待分析文件的各特征向量及各特征向量的值;
二.将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
三.根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
2.根据权利要求1所述的文本相似性比较方法,其特征在于,采用TF-IDF方式,提取各个待分析文件的各特征向量及各特征向量的值。
3.根据权利要求1所述的文本相似性比较方法,其特征在于,采用余弦相似性计算方法,根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
4.一种文本相似性比较系统,其特征在于,包括
一文件特征向量提取模块,用于提取各待分析文件的各特征向量及各特征向量的值;
一削峰处理模块,用于将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
一相似度分析模块,用于根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
5.根据权利要求4所述的文本相似性比较系统,其特征在于,
所述文件特征向量提取模块,采用TF-IDF方式,提取各个待分析文件的各特征向量及各特征向量的值。
6.根据权利要求4所述的文本相似性比较系统,其特征在于,
所述相似度分析模块,采用余弦相似性计算方法,根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210142651.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高频低损耗软磁铁氧体磁芯材料及其制备方法
- 下一篇:早实薄皮核桃芽接方法