[发明专利]一种基于多重余弦定理的文章相关度计算方法在审

专利信息
申请号: 201810859907.1 申请日: 2018-08-01
公开(公告)号: CN109086271A 公开(公告)日: 2018-12-25
发明(设计)人: 龙华;祁俊辉;彭艺;杜庆治 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 相关度 余弦定理 权重 信息处理技术 词频 关键词向量 创新性地 重新规划 词向量 再利用 累加 词性 映射 出错 加权 计算机 分类 改进
【说明书】:

发明涉及一种基于多重余弦定理的文章相关度计算方法,属于信息处理技术领域。本发明将文章映射为实意词向量和关键词向量,并重新规划词权重,再利用多重余弦定理对现阶段的文章相关度计算方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词频、词性、词长等加权累加;另一方面,对文章计算其相关度还使用了多重余弦定理,分别对其计算实意词相关度和关键词相关度,再由相关定义确定其最终相关度。本发明与现有技术相比,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,增加了目前利用计算机对文章相关度计算的准确性。

技术领域

本发明涉及一种基于多重余弦定理的文章相关度计算方法,属于信息处理技术领域。

背景技术

文章相关度的计算是信息处理领域中的一项基本研究工作,主要应用于文章分类、推荐等。

目前,对文章相关度的研究方法主要分为两类:基于统计学和基于语义分析。这两类方法都有各自的优缺点,其中基于统计学的方法需要大量文章作为训练,基于语义分析的方法则需要提前准备较为完整的语义词典。但是现阶段,利用计算机对文章相关度的计算这一技术并不成熟,准确性欠佳、灵活性差等现象一直存在,在很多情况下还需要人工对其进行计算、估计。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于多重余弦定理的文章相关度计算方法,主要解决利用计算机对文章相关度的计算这一技术准确性欠佳、灵活性差等现象。

本发明的技术方案是:一种基于多重余弦定理的文章相关度计算方法,该方法具体包括以下步骤:

Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立文章数据库,具体如Step0.1~Step0.4所示;

Step0.1:对文章X进行分词、去停用词、同义词替换等操作,生成文章的实意词集合X:{x1,x2…xm};

Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};

Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};

Step0.4:将文章X、实意词集合X:{x1,x2…xm}、实意词权重集合Y:{y1,y2…ym}、关键词集合X':{x1',x2'…xn'}及关键词权重集合Y':{y1',y2'…yn'}作为元组加入文章数据库;

Step1:从文章数据库中获取待比较文章T和比较文章H;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810859907.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top