[发明专利]基于锚文本上下文和链接分析的主题抓取方法有效
申请号: | 201410128171.2 | 申请日: | 2014-04-01 |
公开(公告)号: | CN103914538B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 郑小林;陈德人;林臻;郭华 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州中成专利事务所有限公司33212 | 代理人: | 周世骏 |
地址: | 310027 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及互联网搜索技术,旨在提供基于锚文本上下文和链接分析的主题抓取方法。该甚于锚文本上下文和链接分析的主题抓取方法包括步骤计算链接的全局优先级、计算链接局部优先级和计算链接最终优先级。本发明能够快速的估算出网页的质量,能获取链接的上文,并根据上文提高链接主题相关度预测的准确率。 | ||
搜索关键词: | 基于 文本 上下文 链接 分析 主题 抓取 方法 | ||
【主权项】:
基于锚文本上下文和链接分析的主题抓取方法,其特征在于,假设网络中有n个主机,网络上的主机构成了一个有向图,主机相互之间的链接构成了图的边,每个主机就是图中的节点;使用两个向量C[1,...,n]和H[1,...,n]分别表示每个主机的状态,C[i]表示主机i从最后一次访问之后到现在积累的cash值,H[i]表示主机i从一开始到最后一次抓取的时候积累的cash值;在开始链接网页时,在主机的所有链接网页中,即主机的子网页中,要选择链接网页质量最高的进行优先链接,网页质量通过计算链接最终优先级来判断,链接最终优先级的具体计算包括两部分,第一部分是主机的优先级,即链接的全局优先级;第二部分是链接的局部优先级;最后链接的最终优先级是链接的全局优先级和局部优先级的加权和;遍历开始前,先给予种子主机初始cash值,种子主机即指在有向图的遍历过程中选取的起点,然后开始对有向图中的主机进行遍历,即开始链接网页进行抓取,在遍历的过程中,每次抓取网页后,设主机为i,并把主机的cash值,即C[i],均等地分给主机链接到的子链接上去,然后把C[i]加到H[i]上,C[i]清零;其中,n是指主机的数目、i指任意的主机编号;主机i的子链接的最终优先级计算步骤具体包括:(1)计算链接的全局优先级链接的全局优先级是指host‑priority(i),即主机i的优先级分数,它也是主机所有的子网页的全局优先级分数,那么一个主机i的全局优先级分数,根据网络情况分别用下述两种方式进行计算:方式A:若主机i处在静态网络中,静态网络就是结构不会改变的网络,使用下面的公式一进行计算:其中,H[i]表示主机i从一开始到最后一次抓取的时候积累的cash值,C[i]表示主机i从最后一次访问之后到现在积累的cash值,表示所有主机的历史cash值的和,表示所有的主机的当前cash值的和,j是求和中的任意主机的下标;方式B:若主机i处在动态网络中,动态网络就是网络节点数量不确定的网络,并且网络也在变化中,引入一个变量T,设两个时间点t和t‑T,用Ht‑T,t[i]来表示在t‑T到t这个时间段内主机i积累的cash值,即Ht‑T,t[i]=Ht[i]‑Ht‑T[i],用Xt,T[i]表示主机i的全局优先级分数,使用下式进行计算:其中,表示对于任意的i,Xt,T[i]表示主机i的全局优先级分数,∑jHt‑T,t[j]指所有的Ht‑T,t[j]的和,其中j是求和中的任意主机的下标;在这种情况下计算得到的Xt,T[i]即为主机i的全局优先级分数;为了获得Xt,T[i],采用插值法来计算Ht‑T,t[i]:用G[i]表示主机i最后一次被访问的时间,那么C[i]就表示从G[i]到当前时间t之间主机i积累的cash值,并通过下面的公式计算Xt,T[i]的值:其中,G[i]表示主机i最后一次被访问的时间,T是指窗口时间段,取值为3天,t指当前时间;至此,可将通过公式三计算的到的Ht‑T,t[i]代入公式二,即可得到Xt,T[i],即作为动态网络中,主机i的全局优先级分数;(2)计算链接局部优先级设主机i上的任意链接为1,分别通过下述步骤计算链接局部优先级:步骤A:计算链接1的上下文,记为context(1);首先,根据链接1所在的HTML页面中,两个相邻内容元素之间的HTML标签的数量和深度,来计算两个内容元素之间的距离;所述内容元素是含有href属性的HTML标签;所述HTML标签是HTML代码中用“<”和“>”括起来的内容;两个内容元素之间的距离计算,具体包括下述步骤:(a)标签深度的计算:用deep表示HTML标签的深度,且设定deep的初始值为0,然后从头开始遍历链接1所在的HTML页面:如果遍历到的当前标签不是闭合标签,则把deep的值加1,如果遍历到的当前标签是闭合标签,则把deep的值减1;然后再继续获取下一个标签,重复上述遍历过程,直到遍历完整个链接1所在的HTML页面,最终得到deep的值即为标签深度;所述闭合标签是指标签内含有“/”的标签;(b):设a和b表示链接1所在的HTML页面中的任意两个内容元素,用S(a,b)表示两个内容元素a和b之间的内容距离,采用下面的公式四进行计算:其中,Xa和Xb分别表示内容元素a、b在遍历中出现的顺序编号,顺序编号是指从第一个遍历的顺序编号为1,之后依次遍历到依次加1,所得到的编号,ya和yb表示a和b的深度,通过步骤(a)计算得到,fa,b(k)表示内容元素a、b之间的顺序编号为k的元素的标签深度值,这个值也已经在步骤(a)中得到,max{ya,yb}表示ya和yb的最大值、min{ya,yb}表示ya和yb的最小值;(c):抽取链接的上下文:首先把链接1所在的HTML页面中的内容元素分块,具体分块方法是遍历链接1所在的HTML页面中的所有内容元素,把步骤(b)中计算得到的任意两个内容元素a、b之间的内容距离,即S(a,b),为0的内容元素分到一个块中;所述块的形式化定义如下:设定G来表示块,块是网页元素的集合,块的集合具有下面的属性:并且对于任意的块Gc和Gd,然后计算块间的距离:用表示块间距离,并定义块间距离如下面的公式五所示:公式五,也就是说两个块之间内容元素的最小距离便是两个块的距离;其中,表示块Gc和Gd间距离,min表示取最小值;最后抽取链接上下文:设任意的块为c,取这个块前边挨着的块为p,采用公式五计算c和p的块间距离,如果p块内的内容元素个数小于3并且c,p间的块间距离小于20,则p块为c的上文块,否则c的上文块设为空,抽取上文块内的所有文本,作为context(1),即得到链接1的上下文;步骤B:计算链接1的内容优先级,用sim(1)表示:sim(1)用于表示链接1的主题相似度,通过锚文本及锚文本的上下文,以及父亲页面计算得出,设链接1所在的页面为pagel:sim(1)=μ×sim_real(anchor(1)+context(1))+(1.0‑μ)×sim_real(pagel) 公式六;anchor(1)表示链接1的锚文本,context(1)表示链接1在的链接上下文,且通过步骤A计算得到,pagel为链接1的父页面,μ是权衡因子,且μ的值为0.6;其中sim_real是一个计算文本与主题相似度的方法,例如sim_real(pagel)表示链接1所在页面的文本的主题相似度,sim_real(anchor(1)+context(1))表示把链接1的锚文本和上下文文本连接起来后的主题相似度;sim_real(J)通过Rocchio分类算法计算,具体方法为:使用Rocchio分类算法分别计算J的文本与正向和负向两个原型向量的距离,分别记为pDistance和nDistance,sim_real(J)=pDistance‑nDistance;其中,J是指pagel或者sim_real(anchor(1)+context(1)),分别计算得到sim_real(pagel)和sim_real(anchor(1)+context(1));步骤C:计算链接局部优先级,用insite‑priority(1)表示链接1的局部优先级;用structure‑priority(1)表示链接1的结构优先级分数,insite‑priority(1)通过下述公式七进行计算:insite‑priority(1)=λ×structure‑priority(1)+(1‑λ)sim(1) 公式七;其中,链接1的结构优先级分数计算为levell表示链接1的层级,层级就是一个链接在主机中的层次,首页为1,首页的子页面为2,依次递增,λ为权衡因子,且λ的值为0.4,sim(1)通过步骤B计算得到;至此,计算得到的insite‑priority(1)值,即为链接i的链接局部优先级分数;(3)计算链接最终优先级通过步骤(1)和步骤(2)获取了主机优先级分数和局部优先级分数后,用Hosti来表示抓取到的第i个主机,用Hosti,l来表示主机i上的1链接,Hosti,l的优先级分数,通过下述公式八进行计算:Hosti,l=α×(host‑priority(i))+(1.0‑α)×(insite‑priority(1))公式八;其中,host‑priority(i)表示主机i的全局优先级分数,即通过步骤(1)计算得到,insite‑priority(1)表示链接1在主机i中的局部优先级分数,即通过步骤(2)计算得到,α是权重因子,用来调节两部分的比重,且α的值为0.4;重复上述过程,直至计算完成所有主机i的链接的最终优先级分数,子链接最终优先级分数高的进行优先链接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410128171.2/,转载请声明来源钻瓜专利网。