[发明专利]基于词网识别大量Web文本信息相似度的方法有效
申请号: | 201810445807.4 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108647322B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 靳宇倡;安俊秀;文仁强 | 申请(专利权)人: | 四川师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/953;G06K9/62 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 秦力军 |
地址: | 610066 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于词网识别大量Web文本信息相似度的方法,包括以下步骤:(1)构建词网;(2)新Web网页文本信息相似度识别,包括以下步骤:从新Web网页中提取文本信息构成新文档,从新文档中提取特征词f |
||
搜索关键词: | 基于 识别 大量 web 文本 信息 相似 方法 | ||
【主权项】:
1.一种基于词网识别大量Web文本信息相似度的方法,其特征在于:包括以下步骤:(1)构建词网,包括以下步骤:1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D,对文档集合D内的一个文档d提取特征词,计算其所有特征词中任意两个fi、fj两两之间的归一化互信息值norm_Iij和norm_Iji,根据所计算出的norm_Iij和norm_Iji值分别构建特征词fi、fj之间的互信息关系词对<fi,fj>和<fj,fi>,norm_Iij作为互信息关系词对<fi,fj>的权值,norm_Iji作为互信息关系词对<fj,fi>的权值,但norm_Iij=norm_Iji,将互信息关系词对<fi,fj>和词对<fj,fi>添加进词网;1.2、对文档集合D内的所有文档d执行步骤1.1中的操作,直至文档集合D中的所有文档d处理完;在此过程中,当引入一个新的文档d',提取特征词fi'、f'j,计算其所有特征词中任意两个fi'、f'j两两之间的两个相等的归一化互信息值norm_I'ij和norm_I'ji,并确立两者之间的互信息关系词对<fi',f'j>和<f'j,fi'>,若互信息关系词对<fi',f'j>和<f'j,fi'>在词网中存在,则用norm_I'ij值更新其在词网中的互信息关系的权值,若互信息关系词对<fi',f'j>和<f'j,fi'>在词网中不存在,则将其添加进词网中,最终构成整个词网,将词网存储于数据库系统中;(2)新Web网页文本信息相似度识别,包括以下步骤:2.1、从新Web网页中提取文本信息构成新文档,从新文档中提取特征词f:对新文档进行分词,计算各个词的权重度量TF‑IDF值,根据TF‑IDF值选取特征词f1、f2、…、fm;2.2、求解每一个特征词f的相似词的集合:针对每一个特征词f,在数据库系统中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信息值,形成每一个特征词对应的相似词集合,即f1→{t11:I11,t12:I12,...},f2→{t21:I21,t22:I22,...},…,fm→{tm1:Im1,tm2:Im2,...},其中同一特征词fm对应的相似词集合{tm1,tm2,...}中的所有词均不同,特征词f两两之间可能存在共有的相似词,即对于任意两个特征词fl和fk(1≤l,k≤m)之间其对应的相似词集合的交集运算满足
其中
表示空集;2.3、求解每一个特征词f的相似文档集合:针对所有特征词f所对应的相似词集合{t1:I1,t2:I2,...,tn:In},分别求解相似词集合中所有词对应的文档集,构成相似词集合对应的文档集合,并计算文档集合中各文档累积的互信息值。即对相似词集合{t1:I1,t2:I2,...,tn:In}中的每一个词ti,求解包含ti的所有文档构成的文档集{Ii:(di1,di2,...)},其中Ii为对应的互信息值,di1,di2,...均为包含ti的不同的文档;所有的t完成上述过程后,对所有求得的t所对应的文档集求并集,即{I1:(d11,d12,...)}∪{I2:(d21,d22,...)}∪...∪{In:(dn1,dn2,...)},得到新的集合{d1:Id1,d2:Id2,...},对于集合中的项di:Idi,所有的d均为不同的文档,Idi为求并集时包含di的集合对应的互信息值I与相应的t在di中的tf‑idf值的乘积的总和,此时{d1:Id1,d2:Id2,...}即为与特征词f具有一定互信息关系的文档集合,即f→{d1:Id1,d2:Id2,...};假设f1→{d11:I11,d12:I12,...},f2→{d21:I21,d22:I22,...},…,fm→{dm1:Im1,dm2:Im1,...},其中di1,di2,...,dij为文档库中不同的文档,文档集合两两之间可能包含相同文档,即对于任意两个特征词fl和fk(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满足
2.4、确定新文档的相似文档:对步骤2.3中所求得的与特征词f具有互信息关系的文档集合运用交集运算,即求得相似文档集Ω={d11:I11,d12:I12,...}∧{d21:I21,d22:I22,...}∧...∧{dm1:Im1,dm2:Im1,...},假设Ω的计算结果为
其中
为所有集合中都存在的某文档,Ii为文档
对应的相似度值,其值为求交集时所有集合中相应文档对应的互信息值的总和;则与包含有特征词f1、f2、…、fm的文档相似的文档为
2.5、过滤相似文档集中的文档,得到最终的相似度文档集合:对于相似度文档集
中的每一篇文档
根据对应的相似度值Ii,和阈值δ进行比较,若小于δ,则过滤丢弃,否则保留,即得到过滤后的相似文档集
该集合即为最终的相似度文档集合;(3)按步骤(1)的方法对新Web网页进行词网更新,为下一次更新的Web网页文本信息相似度识别作准备。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川师范大学,未经四川师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810445807.4/,转载请声明来源钻瓜专利网。