[发明专利]一种面向用户信息需求的搜索引擎日志数据挖掘的方法有效

专利信息
申请号: 201310125029.8 申请日: 2013-04-09
公开(公告)号: CN103164537A 公开(公告)日: 2013-06-19
发明(设计)人: 吴勇;王敬昌;陈岭;邵维 申请(专利权)人: 浙江鸿程计算机系统有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 310012 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及互联网搜索引擎日志划分领域,尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法,包括:查询日志块归类、查询相似度计算和用户信息需求提供,综合计算查询词相似度和查询结果相似度作为查询相似度,以此为依据判断了两个查询是否具有相同的信息需求,有效快速的对搜索日志进行划分。本发明的有益效果在于:本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷,提出了基于行为日志的搜索引擎用户信息需求满意度评估方法,以用户信息需求为单位,通过分析搜索引擎日志中用户的搜索行为来评估用户满意度,分析出用户的个性化需求,并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。
搜索关键词: 一种 面向 用户信息 需求 搜索引擎 日志 数据 挖掘 方法
【主权项】:
一种面向用户信息需求的搜索引擎日志数据挖掘的方法,其特征在于包括查询日志块归类、查询相似度计算和用户信息需求提供,查询日志块归类包括以下步骤:1)根据日志信息标志每个用户查询的查询时间和IP;2)根据用户IP对搜索日志进行划分,默认IP相同的搜索日志为一个用户的查询日志块;3)对相同用户的查询日志块用时间划分,将查询时间间隔大于时间阈值的查询划分成不同查询块;查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出,查询词相似度计算包括以下步骤:1)输入用户查询块中的查询语句,将查询语句的词进行分词,去掉停用词;2)在经过分词的查询语句中提取查询关键词;3)计算查询关键词中相同的词和不同的词;4)输出相同的词和查询关键词的比值作为查询词相似度;查询结果相似度计算包括以下步骤:1)提取查询返回的结果网页作为输入;2)提取网页进行文本化,对文本进行分词;3)计算每个单词的TF‑IDF值,将文本向量化;4)通过比较两个查询的距离计算出查询结果相似度;根据查询词相似度和查询结果相似度,输出查询相似度;用户信息需求提供包括以下步骤:1)输入经过时间和用户IP划分的用户搜索日志;2)在划分好的查询块内,计算第一个查询和其他查询的相似度,将相似度 高的所有查询归为同一个用户信息需求的搜索任务查询并标记;3)统计用户查询相似度得出用户信息需求,并通过搜索引擎提供给用户个性化需求的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江鸿程计算机系统有限公司,未经浙江鸿程计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310125029.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top