[发明专利]基于海量搜索日志挖掘话题脉络的方法和系统有效
申请号: | 201310256084.0 | 申请日: | 2013-06-25 |
公开(公告)号: | CN103324718A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 沈剑平;彭学政;罗嵘;吴波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 罗延红;张川绪 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供一种基于海量搜索日志挖掘话题脉络的方法及装置,所述方法包括:统计网络搜索日志,产生第一搜索词统计数据;将第一搜索词统计数据统计为第二搜索词统计数据;为第一统计记录提取关键词;计算关键词的累计搜索次数,得到关键词搜索累计统计数据;计算单位时间段的关键词搜索热度值;确定单位时间段的话题综合搜索热度值;最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置,不仅能够有效避免话题关联引起的话题漂移,而且能够挖掘出清晰完整的话题脉络。 | ||
搜索关键词: | 基于 海量 搜索 日志 挖掘 话题 脉络 方法 系统 | ||
【主权项】:
一种基于海量搜索日志挖掘话题脉络的方法,所述方法包括,在服务器端执行以下步骤:A)将预定时间段的网络搜索日志,以预定的时间单位,按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据,每个第一统计记录包括搜索词以及其搜索记录列表,所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数;B)按照单位时间段,将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据,每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数;C)针对每个第一统计记录中的每个搜索词,根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词;D)遍历第一统计记录,计算每个关键词在各个单位时间段的累计搜索次数,以得到包括多个第三统计记录的关键词搜索累计统计数据,每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数,其中,对于没有在预定个数的连续单位时间段被搜索的关键词,自第一个不连续的单位时间段起计算其将其累计搜索次数记为0;E)针对每个单位时间段,计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值;F)针对每个单位时间段,根据在步骤E)计算的所述单位时间段的关键词搜索热度值和步骤B)统计的各搜索词的总搜索次数,确定所述单位时间段的话题综合搜索热度值;G)将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310256084.0/,转载请声明来源钻瓜专利网。
- 上一篇:触控电极结构、电容式触控装置和触摸显示装置
- 下一篇:触控面板