[发明专利]一种基于能量函数的网页时间敏感性度量方法有效
申请号: | 201410160080.7 | 申请日: | 2014-04-21 |
公开(公告)号: | CN103927365B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 李石君;甘琳;朱昌盛;刘世超;余伟;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 张火春 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于能量函数的网页时间敏感性度量方法,属于数据质量的研究范畴,涉及时态Web、网络信息质量评估、使用模式等技术领域。目前,Web垃圾信息泛滥,数据质量低下已经成为普遍现象。导致这一现象的一个重要原因是信息是时间敏感的,即信息是随着时间的推移而变化的。然而不同信息的时间敏感程度是不一样的,为统一度量信息的时间敏感度,本发明根据Web用户对信息的需求、信息量的增加和页面的链接关系三个方面对网页的能量进行度量,用能量的变化刻画网页的时间敏感度。本方法可应用于网页质量评价和排序,也可应用于信息检索中,以提高检索结果的质量。 | ||
搜索关键词: | 一种 基于 能量 函数 网页 时间 敏感性 度量 方法 | ||
【主权项】:
一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤:步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列;步骤2:基于步骤1中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤:步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即t0时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量步骤2.2:根据网页的标题,网页的正文内容和网页的正文标签,计算网页的主题信息覆盖度IVtopic,基于主题信息覆盖度IVtopic,计算网页在tk时刻主题信息覆盖的能量贡献步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时刻对该网页的能量贡献elink(tk,d);步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ejoin(tk,d);步骤3:基于步骤2中所述的tk时刻网页信息本身的能量网页在tk时刻主题信息覆盖的能量贡献链接网络在tk时刻对该网页的能量贡献elink(tk,d)和网页在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d),计算网页在tk时刻的总能量Eng(tk,d);步骤4:计算网页在tk时刻的时间敏感度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410160080.7/,转载请声明来源钻瓜专利网。