[发明专利]一种基于多重余弦定理的文章相关度计算方法在审
| 申请号: | 201810859907.1 | 申请日: | 2018-08-01 |
| 公开(公告)号: | CN109086271A | 公开(公告)日: | 2018-12-25 |
| 发明(设计)人: | 龙华;祁俊辉;彭艺;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于多重余弦定理的文章相关度计算方法,属于信息处理技术领域。本发明将文章映射为实意词向量和关键词向量,并重新规划词权重,再利用多重余弦定理对现阶段的文章相关度计算方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词频、词性、词长等加权累加;另一方面,对文章计算其相关度还使用了多重余弦定理,分别对其计算实意词相关度和关键词相关度,再由相关定义确定其最终相关度。本发明与现有技术相比,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,增加了目前利用计算机对文章相关度计算的准确性。 | ||
| 搜索关键词: | 相关度 余弦定理 权重 信息处理技术 词频 关键词向量 创新性地 重新规划 词向量 再利用 累加 词性 映射 出错 加权 计算机 分类 改进 | ||
【主权项】:
1.一种基于多重余弦定理的文章相关度计算方法,其特征在于:Step0:获取文章集合{X1,X2…Xp},对文章X,X∈{X1,X2…Xp}进行预处理,并建立动态文章数据库,具体如Step0.1~Step0.4所示;Step0.1:对文章X进行分词、去停用词、同义词替换操作,生成文章的实意词集合X:{x1,x2…xm};Step0.2:以TFIDF值为主,该文章中出现该词的词频、词性、词长为辅,遍历Step0.1中得到的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step0.3:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step0.2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step0.4:将文章X、实意词集合X:{x1,x2…xm}、实意词权重集合Y:{y1,y2…ym}、关键词集合X':{x1',x2'…xn'}及关键词权重集合Y':{y1',y2'…yn'}作为元组加入文章数据库;Step1:从文章数据库中获取待比较文章T和比较文章H;Step2:以待比较文章T的实意词集合XT:{t1,t2…tm}和实意词权重集合YT:{y1,y2…ym},生成实意词特征向量FT={ft1,ft2…ftg},同样对比较文章H也以此生成实意词特征向量FH={fh1,fh2…fhg},由余弦定理计算公式(1)确定待比较文章T与比较文章H之间的实意词相关度R1(T,H);
Step3:以待比较文章T的关键词集合XT':{t1',t2'…tn'}和关键词权重集合YT':{y1',y2'…yn'},生成关键词特征向量FT'={ft'1,ft'2…ft'g},同样对比较文章H也以此生成关键词特征向量FH'={fh'1,fh'2…fh'g},由余弦定理计算公式(2)确定待比较文章T与比较文章H之间的关键词相关度R2(T,H);
Step4:依照公式(3)计算待比较文章T与比较文章H之间的最终相关度R(T,H),其中γ为阈值参数;![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810859907.1/,转载请声明来源钻瓜专利网。
- 上一篇:基于古诗词语料向量化的自动作诗系统及其方法
- 下一篇:句型识别方法及其系统





