[发明专利]一种基于潜在语义分析和随机投影的文本相似度计算方法有效

专利信息
申请号: 201910598004.7 申请日: 2019-07-04
公开(公告)号: CN110399458B 公开(公告)日: 2023-05-26
发明(设计)人: 朱全银;吴思凯;王啸;赵建洋;宗慧;冯万利;周泓;丁瑾;陈伯伦;曹苏群 申请(专利权)人: 淮阴工学院
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 梁耀文
地址: 223005 江苏省淮安市洪泽区东七街三号高*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 潜在 语义 分析 随机 投影 文本 相似 计算方法
【权利要求书】:

1.一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,包括如下步骤:

(1)将tag向量化得到词条标签向量集V1,并对其使用TF-IDF算法得到词条标签权重向量集V2;

(2)对V2使用LSA算法得到LSA模型M1和索引库I1;

(3)对V2使用随机投影算法得到RP模型M2和索引库I2;

(4)对待处理语料使用TF-IDF处理,并进行LSA和RP处理,得到最终的推荐集;

所述步骤(2)中对V2使用LSA算法得到LSA模型M1和索引库I1的具体步骤如下:

(2.1)从本地载入词条标签权重向量集V2,V2={vk1,vk2,…,vkn},vkB是词条标签权重向量集V2的第B个权重向量,其中,B∈[1,n];

(2.2)从本地载入词典Dict2;

(2.3)定义id2word=Dict2,主题数num_topics=300;

(2.4)通过对V2使用LSA方法训练,传入参数id2word和num_topics得到模型M1;

(2.5)通过模型M1对V2进行处理得到包装语料C1;

(2.6)对C1建立索引库得到索引库I1;

(2.7)保存模型M1和索引库I1;

所述步骤(3)中对V2使用随机投影算法得到RP模型M2和索引库I2的具体步骤如下:

(3.1)从本地载入词条标签权重向量集V2,V2={vl1,vl2,…,vln},vlC是词条标签权重向量集V2的第C个权重向量,其中,C∈[1,n];

(3.2)定义主题数num_topics=500;

(3.3)通过对V2使用RP方法训练,传入参数num_topics得到模型M2;

(3.4)通过模型M2对V2进行处理得到包装语料C2;

(3.5)对C2建立索引库得到索引库I2;

(3.6)保存模型M2和索引库I2;

所述步骤(4)中得到最终的推荐集的具体步骤如下:

(4.1)定义D2为百科词条测试集,D2={id2,title2,paragraph2,image2,url2,tag2},其中id2,title2,paragraph2,image2,url2,tag2分别表示编号、标题、段落、图片链接、网页链接和词条标签;

(4.2)将title2作为输入,通过对tag2使用split方法得到T2={wj1,wj2,…,wjn},wjD是百科词条数据集第D个词条标签集,其中,变量D∈[1,n];

(4.3)通过对T2使用Doc2Bow方法得到词条标签向量集V1={vm1,vm2,…,vmn},vmE是词条标签向量集V1的第E个词条标签向量,其中,变量E∈[1,n];

(4.4)通过对V1进行TF-IDF方法得到词条标签权重向量集V2={vo1,vo2,…,von},voF是词条标签权重向量集V2的第F个词条标签权重向量,其中,变量F∈[1,n];

(4.5)定义变量k=1为循环变量,用来遍历V2;

(4.6)定义集合R1、R2和R3,R1={simi1,simi2,…,simin},R2={simj1,simj2,…,simjn},R3为空集,simiG和simjG分别表示R1和R2中第G个相似度集,simiG和simjG初始值为空,其中,G∈[1,n];

(4.7)导入LSA模型M1和随机投影模型M2,导入LSA索引库I1和随机投影索引库I2;

(4.8)如果k=n则转到步骤(4.9),否则转到步骤(4.14);

(4.9)通过对vok使用LSA方法包装得到vec1k,通过对vok使用随机投影方法包装得到vec2k

(4.10)通过对vec1k检索索引库I1,使用余弦相似度计算得到与I1中元素与vec1k的相似度集并存入simik,通过对vec2k检索索引库I2,使用余弦相似度计算得到与I2中元素与vec2k的相似度集并存入simjk

(4.11)将simik和simjk对应元素相加后取平均值得到simlk

(4.12)将simlk插入R3中;

(4.13)k=k+1,转到步骤(4.8);

(4.14)取R3每个集合中相似度最高的8个元素组成集合存入结果集R4,R4中各元素即为推荐集。

2.根据权利要求1所述的一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,所述步骤(1)中得到词条标签权重向量集V2的具体步骤如下:

(1.1)定义D1为百科词条数据集,D1={id1,title1,paragraph1,image1,url1,tag1},其中id1,title1,paragraph1,image1,url1,tag1分别表示编号、标题、段落、图片链接、网页链接和词条标签;

(1.2)通过对tag1使用split方法得到T1={wi1,wi2,…,win},wiA是百科词条数据集第A个词条标签集,其中,变量A∈[1,n];

(1.3)通过对T1使用Dictionary方法得到词典Dict1;

(1.4)将词典Dict1保存至本地;

(1.5)通过对T1使用Doc2Bow方法得到词条标签向量集V1={vi1,vi2,…,vin},viA是词条标签向量集V1的第A个词条标签向量,其中,变量A∈[1,n];

(1.6)通过对V1进行TF-IDF方法得到词条标签权重向量集V2={vj1,vj2,…,vjn},vjA是词条标签权重向量集V2的第A个词条标签权重向量,其中,变量A∈[1,n];

(1.7)将词条标签权重向量集V2保存至本地。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910598004.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top