[发明专利]一种顾及时间意图的主题网络信息采集方法有效
申请号: | 201610630419.4 | 申请日: | 2016-08-04 |
公开(公告)号: | CN106250512B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 陈军;武昊;侯东阳 | 申请(专利权)人: | 国家基础地理信息中心 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京尚德技研知识产权代理事务所(普通合伙) 11378 | 代理人: | 严勇刚;段泽贤 |
地址: | 100830 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值;步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级。本发明所提供的一种顾及时间意图的主题网络信息采集方法,大大提高了网页发现数量和查准率。 | ||
搜索关键词: | 一种 顾及 时间 意图 主题 网络 信息 采集 方法 | ||
【主权项】:
1.一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其特征在于,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值,步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级,也就使得受关注时刻的URL获得较高的优先级,所述URL优先级分配计算公式为:
其中,PriorityT(URL)表示最终的URL优先级,Priority(URL)是现有的基于网页内容的URL优先级分配方法得到的优先级,Pr(t/T)是时间分布量化值的标准化值,也表示发布时间为t的网页与主题T相关的概率;所述阈值在0到1区间取值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家基础地理信息中心,未经国家基础地理信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610630419.4/,转载请声明来源钻瓜专利网。