[发明专利]基于海量搜索日志挖掘话题脉络的方法和系统有效
申请号: | 201310256084.0 | 申请日: | 2013-06-25 |
公开(公告)号: | CN103324718A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 沈剑平;彭学政;罗嵘;吴波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 罗延红;张川绪 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 搜索 日志 挖掘 话题 脉络 方法 系统 | ||
技术领域
本申请涉及一种基于海量搜索日志挖掘话题脉络的方法和系统,尤其涉及一种从海量的网络搜索日志进行分析以挖掘出给定话题的发展脉络的技术。
背景技术
随着互联网和移动终端的推广及应用,在网上浏览新闻已经成为网民最为常见的一种休闲方式,据腾讯科技统计:有61.67%的手机用户上网以浏览新闻为主。这些用户在浏览新闻时,往往点击浏览一些热门话题,而这些热门话题通常由若干话题进展组成,例如,“钓鱼岛争端”中可以包括“日本购岛”,“香港保钓”等若干事件。任何话题都有一个产生、发展、高潮、结束这样一个过程,整个过程中重要时刻的话题串联起来便形成话题脉络,因此如何在从海量历史话题信息中挖掘话题脉络成为了解一个新闻事件发展的重要需求。
为了能够在海量信息中挖掘和了解话题脉络,现有技术通常采用基于人工编辑标注和事件跟踪两种方式实现。其中,人工编辑标注方式需要对每篇新闻文档进行人工标注,然后通过机器将编辑标注好的文档进行汇总展示,这种方式挖掘到的话题信息覆盖面窄,人力成本高,不适应海量新闻事件脉络挖掘的需求;而事件跟踪方式则是通过把本阶段发生的热门话题与前一阶段发生的热门话题进行话题关联,如果有历史话题可以关联到当前话题,则当前话题为历史话题的一个进展,但是话题关联往往会引起话题漂移,而且这种方式跟踪的是话题的最新进展而不是关注话题的关键进展,因此挖掘到的话题进展数据并不是清晰话题脉络,另外,由于需要把当前的所有话题与历史所有话题进行关联匹配,因此这种方式的后期开发成本较大,周期较长。
发明内容
本发明的目的在于提供一种基于海量搜索日志挖掘话题脉络的方法及装置,在不需要与历史所有话题进行关联匹配的情况下,不仅能够避免话题漂移,而且能够生成清晰的话题脉络。
一种基于海量搜索日志挖掘话题脉络的方法,所述方法包括,在服务器端执行以下步骤:A)将预定时间段的网络搜索日志,以预定的时间单位,按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据,每个第一统计记录包括搜索词以及其搜索记录列表,所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数;B)按照单位时间段,将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据,每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数;C)针对每个第一统计记录中的每个搜索词,根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词;D)遍历第一统计记录,计算每个关键词在各个单位时间段的累计搜索次数,以得到包括多个第三统计记录的关键词搜索累计统计数据,每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数,其中,对于没有在预定个数的连续单位时间段被搜索的关键词,自第一个不连续的单位时间段起计算其将其累计搜索次数记为0;E)针对每个单位时间段,计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值;F)针对每个单位时间段,根据在步骤E)计算的所述单位时间段的关键词搜索热度值和步骤B)统计的各搜索词的总搜索次数,确定所述单位时间段的话题综合搜索热度值;G)将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。
所述预定的时间单位可以是天,所述单位时间段是一天。
优选地,步骤F)包括,使用以下公式计算单位时间段的话题综合搜索热度值:
话题综合搜索热度值=α×各搜索词的总搜索次数+β×关键词搜索热度值,
其中,α和β分别是所述单位时间段内各搜索词的总搜索次数以及关键词搜索热度值的权值常量。
优选地,所述的方法还包括:G-1)根据各个单位时间段的关键词搜索热度值确定所述搜索热度阈值。
优选地,在步骤G-1),根据以下公式确定所述搜索热度阈值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310256084.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:触控电极结构、电容式触控装置和触摸显示装置
- 下一篇:触控面板