[发明专利]一种基于能量函数的网页时间敏感性度量方法有效

专利信息
申请号: 201410160080.7 申请日: 2014-04-21
公开(公告)号: CN103927365B 公开(公告)日: 2017-01-25
发明(设计)人: 李石君;甘琳;朱昌盛;刘世超;余伟;李宇轩 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 张火春
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于能量函数的网页时间敏感性度量方法,属于数据质量的研究范畴,涉及时态Web、网络信息质量评估、使用模式等技术领域。目前,Web垃圾信息泛滥,数据质量低下已经成为普遍现象。导致这一现象的一个重要原因是信息是时间敏感的,即信息是随着时间的推移而变化的。然而不同信息的时间敏感程度是不一样的,为统一度量信息的时间敏感度,本发明根据Web用户对信息的需求、信息量的增加和页面的链接关系三个方面对网页的能量进行度量,用能量的变化刻画网页的时间敏感度。本方法可应用于网页质量评价和排序,也可应用于信息检索中,以提高检索结果的质量。
搜索关键词: 一种 基于 能量 函数 网页 时间 敏感性 度量 方法
【主权项】:
一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤:步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列;步骤2:基于步骤1中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤:步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即t0时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量步骤2.2:根据网页的标题,网页的正文内容和网页的正文标签,计算网页的主题信息覆盖度IVtopic,基于主题信息覆盖度IVtopic,计算网页在tk时刻主题信息覆盖的能量贡献步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时刻对该网页的能量贡献elink(tk,d);步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ejoin(tk,d);步骤3:基于步骤2中所述的tk时刻网页信息本身的能量网页在tk时刻主题信息覆盖的能量贡献链接网络在tk时刻对该网页的能量贡献elink(tk,d)和网页在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d),计算网页在tk时刻的总能量Eng(tk,d);步骤4:计算网页在tk时刻的时间敏感度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410160080.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top