[发明专利]基于词网识别大量Web文本信息相似度的方法有效

申请号：	201810445807.4	申请日：	2018-05-11
公开（公告）号：	CN108647322B	公开（公告）日：	2021-12-17
发明（设计）人：	靳宇倡;安俊秀;文仁强	申请（专利权）人：	四川师范大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/953;G06K9/62
代理公司：	北京元本知识产权代理事务所(普通合伙) 11308	代理人：	秦力军
地址：	610066 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于词网识别大量Web文本信息相似度的方法，包括以下步骤：(1)构建词网；(2)新Web网页文本信息相似度识别，包括以下步骤：从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f1、f2、…、fm；求解每一个特征词f的相似词的集合；求解每一个特征词f的相似文档集合；确定新文档的相似文档并计算相似文档集中文档的相似度值；过滤相似文档集中的文档，得到最终的相似度文档集合；(3)按步骤(1)的方法对新Web网页进行词网更新。利用本方法，可以用于发现信息剽窃或信息模仿、篡改，可以用于发掘不同领域之间隐含存在的相关关系，可以消除重复的网页，降低搜索引擎的负担，优化存储和索引结构。
搜索关键词：	基于识别大量 web 文本信息相似方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于词网识别大量Web文本信息相似度的方法，其特征在于：包括以下步骤：(1)构建词网，包括以下步骤：1.1、从Web网页中提取文本信息构成由多个文档d组成的文档集合D，对文档集合D内的一个文档d提取特征词，计算其所有特征词中任意两个fi、fj两两之间的归一化互信息值norm_Iij和norm_Iji，根据所计算出的norm_Iij和norm_Iji值分别构建特征词fi、fj之间的互信息关系词对＜fi,fj＞和＜fj,fi＞，norm_Iij作为互信息关系词对＜fi,fj＞的权值，norm_Iji作为互信息关系词对＜fj,fi＞的权值，但norm_Iij＝norm_Iji，将互信息关系词对＜fi,fj＞和词对＜fj,fi＞添加进词网；1.2、对文档集合D内的所有文档d执行步骤1.1中的操作，直至文档集合D中的所有文档d处理完；在此过程中，当引入一个新的文档d'，提取特征词fi'、f'j，计算其所有特征词中任意两个fi'、f'j两两之间的两个相等的归一化互信息值norm_I'ij和norm_I'ji，并确立两者之间的互信息关系词对＜fi',f'j＞和＜f'j,fi'＞，若互信息关系词对＜fi',f'j＞和＜f'j,fi'＞在词网中存在，则用norm_I'ij值更新其在词网中的互信息关系的权值，若互信息关系词对＜fi',f'j＞和＜f'j,fi'＞在词网中不存在，则将其添加进词网中，最终构成整个词网，将词网存储于数据库系统中；(2)新Web网页文本信息相似度识别，包括以下步骤：2.1、从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f：对新文档进行分词，计算各个词的权重度量TF‑IDF值，根据TF‑IDF值选取特征词f1、f2、…、fm；2.2、求解每一个特征词f的相似词的集合：针对每一个特征词f，在数据库系统中的词网中寻找与其存在直接互信息关系的词并同时记录与各词的互信息值，形成每一个特征词对应的相似词集合，即f₁→{t₁₁:I₁₁,t₁₂:I₁₂,...}，f₂→{t₂₁:I₂₁,t₂₂:I₂₂,...}，…，f_m→{t_m1:I_m1,t_m2:I_m2,...}，其中同一特征词f_m对应的相似词集合{t_m1,t_m2,...}中的所有词均不同，特征词f两两之间可能存在共有的相似词，即对于任意两个特征词f_l和f_k(1≤l,k≤m)之间其对应的相似词集合的交集运算满足其中表示空集；2.3、求解每一个特征词f的相似文档集合：针对所有特征词f所对应的相似词集合{t₁:I₁,t₂:I₂,...,t_n:I_n}，分别求解相似词集合中所有词对应的文档集，构成相似词集合对应的文档集合，并计算文档集合中各文档累积的互信息值。即对相似词集合{t₁:I₁,t₂:I₂,...,t_n:I_n}中的每一个词t_i，求解包含t_i的所有文档构成的文档集{I_i:(d_i1,d_i2,...)}，其中I_i为对应的互信息值，d_i1,d_i2,...均为包含t_i的不同的文档；所有的t完成上述过程后，对所有求得的t所对应的文档集求并集，即{I₁:(d₁₁,d₁₂,...)}∪{I₂:(d₂₁,d₂₂,...)}∪...∪{I_n:(d_n1,d_n2,...)}，得到新的集合{d₁:I_d1,d₂:I_d2,...}，对于集合中的项d_i:I_di，所有的d均为不同的文档，I_di为求并集时包含d_i的集合对应的互信息值I与相应的t在d_i中的tf‑idf值的乘积的总和，此时{d₁:I_d1,d₂:I_d2,...}即为与特征词f具有一定互信息关系的文档集合，即f→{d₁:I_d1,d₂:I_d2,...}；假设f₁→{d₁₁:I₁₁,d₁₂:I₁₂,...}，f₂→{d₂₁:I₂₁,d₂₂:I₂₂,...}，…，f_m→{d_m1:I_m1,d_m2:I_m1,...}，其中d_i1,d_i2,...,d_ij为文档库中不同的文档，文档集合两两之间可能包含相同文档，即对于任意两个特征词f_l和f_k(1≤l,k≤m)之间与其互信息相关的文档集合的交集运算满足2.4、确定新文档的相似文档：对步骤2.3中所求得的与特征词f具有互信息关系的文档集合运用交集运算，即求得相似文档集Ω＝{d₁₁:I₁₁,d₁₂:I₁₂,...}∧{d₂₁:I₂₁,d₂₂:I₂₂,...}∧...∧{d_m1:I_m1,d_m2:I_m1,...}，假设Ω的计算结果为其中为所有集合中都存在的某文档，I_i为文档对应的相似度值，其值为求交集时所有集合中相应文档对应的互信息值的总和；则与包含有特征词f₁、f₂、…、f_m的文档相似的文档为2.5、过滤相似文档集中的文档，得到最终的相似度文档集合：对于相似度文档集中的每一篇文档根据对应的相似度值I_i，和阈值δ进行比较，若小于δ，则过滤丢弃，否则保留，即得到过滤后的相似文档集该集合即为最终的相似度文档集合；(3)按步骤(1)的方法对新Web网页进行词网更新，为下一次更新的Web网页文本信息相似度识别作准备。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川师范大学，未经四川师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810445807.4/，转载请声明来源钻瓜专利网。

上一篇：一种树形智能车间制造大数据集成建模与语义计算方法
下一篇：一种职业能力的数据汇总方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于词网识别大量Web文本信息相似度的方法有效

专利文献下载