[发明专利]文章相似度挖掘方法、系统、设备及存储介质在审
申请号: | 201711385538.9 | 申请日: | 2017-12-20 |
公开(公告)号: | CN109948121A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似度 向量 预处理 存储介质 特征向量 用户浏览 特征词 权重 挖掘 提取特征 用户推荐 用户文章 归一化 停用词 分词 偏好 词语 阅读 改进 | ||
本发明公开了一种文章相似度挖掘方法、系统、设备及存储介质,其中方法包括步骤:S1、对多篇文章进行预处理,获取每篇文章的特征词;S2、基于TF‑IDF计算所述特征词的TF‑IDF权重;S3、根据所述TF‑IDF权重生成每篇文章的归一化的特征向量;S4、计算任意两个所述特征向量的相似度。本发明通过将文件进行分词、去停用词、提取特征词等预处理,然后采用改进的TF‑IDF方法计算特征词语的权重,通过TF‑IDF计算出文章的向量,形成表示文章的向量,然后通过计算文章的向量间的相似度,从而挖掘出更精准的相似文章并向用户推荐,从而抓住用户浏览偏好,提升了用户文章的点击转化率,提高用户浏览阅读体验。
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于向量空间模型的文章相似度挖掘方法、系统、设备及存储介质。
背景技术
随着互联网和人工智能的发展,人们获得信息的来源更丰富,特别是目前处于大数据时代,在用户浏览完一篇文章后,若能够自动地为用户推荐相似度高的相关文章,则可进一步抓住用户的偏好心理,从而在很大程度上提高用户的个性化体验。由于文章都是有字词组成,所以通常就将文章拆分为若干特征字词,并将这些特征字词形成特征集合,即将文章转化成特征向量,然后通过比较特征向量间的相似性来得到文章之间的相似度。现有技术中,在计算特征向量时,主要采用布尔权重、词频权重、TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)等方法来计算特征词语的权重。其中,布尔权重表示一个特征词语在文章中是否出现,所以布尔权重的优点是计算简单快速,缺点是无法体现高频词和低频词的区别;词频权重是表示一个特征词语在文章中出现的频率,所以词频权重的优点是快捷地统计出各个特征词语在文章中出现的次数,缺点是找不出特征词语在不同文章中的分布情况。
发明内容
本发明要解决的技术问题是为了克服现有技术中布尔权重虽计算简单快速但无法体现高频词和低频词的区别,而词频权重虽能快捷地统计出各个特征词语在文章中出现的次数但不能找出特征词语在不同文章中的分布情况的缺陷,提供一种文章相似度挖掘方法、系统、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种文章相似度挖掘方法,其特点是,包括步骤:
S1、对多篇文章进行预处理,获取每篇文章的特征词;
S2、基于TF-IDF计算所述特征词的TF-IDF权重;
S3、根据所述TF-IDF权重生成每篇文章的归一化的特征向量;
S4、计算任意两个所述特征向量的相似度。
本方案中,在预处理获得能够表征文章显著类别信息的特征词后,采用TF-IDF对特征词进行降权,从而使用降权后的特征向量来表示文章,这样在大数据的当下,大量文章之间的相似性就可转变为计算特征向量之间的相似性,从而可以采用大数据计算如Spark(专为大规模数据处理而设计的快速通用的计算引擎)进行文章之间相似度的挖掘。
较佳地,步骤S1具体包括:
S11、读取多篇文章,并清洗所述文章;
S12、基于分词词库对已清洗的所述文章进行分词;
S13、基于停用词词库对已分词的所述文章去停用词;
S14、基于特征词词库对已去停用词的所述文章进行特征词提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711385538.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于二元化的简历解析方法
- 下一篇:输入文本的纠错方法、装置及电子设备