[发明专利]一种基于潜在语义分析和随机投影的文本相似度计算方法有效
| 申请号: | 201910598004.7 | 申请日: | 2019-07-04 | 
| 公开(公告)号: | CN110399458B | 公开(公告)日: | 2023-05-26 | 
| 发明(设计)人: | 朱全银;吴思凯;王啸;赵建洋;宗慧;冯万利;周泓;丁瑾;陈伯伦;曹苏群 | 申请(专利权)人: | 淮阴工学院 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30 | 
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 | 
| 地址: | 223005 江苏省淮安市洪泽区东七街三号高*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 潜在 语义 分析 随机 投影 文本 相似 计算方法 | ||
1.一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,包括如下步骤:
(1)将tag向量化得到词条标签向量集V1,并对其使用TF-IDF算法得到词条标签权重向量集V2;
(2)对V2使用LSA算法得到LSA模型M1和索引库I1;
(3)对V2使用随机投影算法得到RP模型M2和索引库I2;
(4)对待处理语料使用TF-IDF处理,并进行LSA和RP处理,得到最终的推荐集;
所述步骤(2)中对V2使用LSA算法得到LSA模型M1和索引库I1的具体步骤如下:
(2.1)从本地载入词条标签权重向量集V2,V2={vk1,vk2,…,vkn},vkB是词条标签权重向量集V2的第B个权重向量,其中,B∈[1,n];
(2.2)从本地载入词典Dict2;
(2.3)定义id2word=Dict2,主题数num_topics=300;
(2.4)通过对V2使用LSA方法训练,传入参数id2word和num_topics得到模型M1;
(2.5)通过模型M1对V2进行处理得到包装语料C1;
(2.6)对C1建立索引库得到索引库I1;
(2.7)保存模型M1和索引库I1;
所述步骤(3)中对V2使用随机投影算法得到RP模型M2和索引库I2的具体步骤如下:
(3.1)从本地载入词条标签权重向量集V2,V2={vl1,vl2,…,vln},vlC是词条标签权重向量集V2的第C个权重向量,其中,C∈[1,n];
(3.2)定义主题数num_topics=500;
(3.3)通过对V2使用RP方法训练,传入参数num_topics得到模型M2;
(3.4)通过模型M2对V2进行处理得到包装语料C2;
(3.5)对C2建立索引库得到索引库I2;
(3.6)保存模型M2和索引库I2;
所述步骤(4)中得到最终的推荐集的具体步骤如下:
(4.1)定义D2为百科词条测试集,D2={id2,title2,paragraph2,image2,url2,tag2},其中id2,title2,paragraph2,image2,url2,tag2分别表示编号、标题、段落、图片链接、网页链接和词条标签;
(4.2)将title2作为输入,通过对tag2使用split方法得到T2={wj1,wj2,…,wjn},wjD是百科词条数据集第D个词条标签集,其中,变量D∈[1,n];
(4.3)通过对T2使用Doc2Bow方法得到词条标签向量集V1={vm1,vm2,…,vmn},vmE是词条标签向量集V1的第E个词条标签向量,其中,变量E∈[1,n];
(4.4)通过对V1进行TF-IDF方法得到词条标签权重向量集V2={vo1,vo2,…,von},voF是词条标签权重向量集V2的第F个词条标签权重向量,其中,变量F∈[1,n];
(4.5)定义变量k=1为循环变量,用来遍历V2;
(4.6)定义集合R1、R2和R3,R1={simi1,simi2,…,simin},R2={simj1,simj2,…,simjn},R3为空集,simiG和simjG分别表示R1和R2中第G个相似度集,simiG和simjG初始值为空,其中,G∈[1,n];
(4.7)导入LSA模型M1和随机投影模型M2,导入LSA索引库I1和随机投影索引库I2;
(4.8)如果k=n则转到步骤(4.9),否则转到步骤(4.14);
(4.9)通过对vok使用LSA方法包装得到vec1k,通过对vok使用随机投影方法包装得到vec2k;
(4.10)通过对vec1k检索索引库I1,使用余弦相似度计算得到与I1中元素与vec1k的相似度集并存入simik,通过对vec2k检索索引库I2,使用余弦相似度计算得到与I2中元素与vec2k的相似度集并存入simjk;
(4.11)将simik和simjk对应元素相加后取平均值得到simlk;
(4.12)将simlk插入R3中;
(4.13)k=k+1,转到步骤(4.8);
(4.14)取R3每个集合中相似度最高的8个元素组成集合存入结果集R4,R4中各元素即为推荐集。
2.根据权利要求1所述的一种基于潜在语义分析和随机投影的文本相似度计算方法,其特征在于,所述步骤(1)中得到词条标签权重向量集V2的具体步骤如下:
(1.1)定义D1为百科词条数据集,D1={id1,title1,paragraph1,image1,url1,tag1},其中id1,title1,paragraph1,image1,url1,tag1分别表示编号、标题、段落、图片链接、网页链接和词条标签;
(1.2)通过对tag1使用split方法得到T1={wi1,wi2,…,win},wiA是百科词条数据集第A个词条标签集,其中,变量A∈[1,n];
(1.3)通过对T1使用Dictionary方法得到词典Dict1;
(1.4)将词典Dict1保存至本地;
(1.5)通过对T1使用Doc2Bow方法得到词条标签向量集V1={vi1,vi2,…,vin},viA是词条标签向量集V1的第A个词条标签向量,其中,变量A∈[1,n];
(1.6)通过对V1进行TF-IDF方法得到词条标签权重向量集V2={vj1,vj2,…,vjn},vjA是词条标签权重向量集V2的第A个词条标签权重向量,其中,变量A∈[1,n];
(1.7)将词条标签权重向量集V2保存至本地。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910598004.7/1.html,转载请声明来源钻瓜专利网。





