[发明专利]一种面向用户信息需求的搜索引擎日志数据挖掘的方法有效

申请号：	201310125029.8	申请日：	2013-04-09
公开（公告）号：	CN103164537A	公开（公告）日：	2013-06-19
发明（设计）人：	吴勇;王敬昌;陈岭;邵维	申请（专利权）人：	浙江鸿程计算机系统有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	310012 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及互联网搜索引擎日志划分领域，尤其涉及一种面向用户信息需求的搜索引擎日志数据挖掘的方法，包括：查询日志块归类、查询相似度计算和用户信息需求提供，综合计算查询词相似度和查询结果相似度作为查询相似度，以此为依据判断了两个查询是否具有相同的信息需求，有效快速的对搜索日志进行划分。本发明的有益效果在于：本发明针对传统的搜索引擎质量评价方法不能完整描述用户复杂、模糊信息需求的缺陷，提出了基于行为日志的搜索引擎用户信息需求满意度评估方法，以用户信息需求为单位，通过分析搜索引擎日志中用户的搜索行为来评估用户满意度，分析出用户的个性化需求，并从而促进搜索引擎技术的发展、提高搜索引擎的服务质量。
搜索关键词：	一种面向用户信息需求搜索引擎日志数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种面向用户信息需求的搜索引擎日志数据挖掘的方法，其特征在于包括查询日志块归类、查询相似度计算和用户信息需求提供，查询日志块归类包括以下步骤：1)根据日志信息标志每个用户查询的查询时间和IP；2)根据用户IP对搜索日志进行划分，默认IP相同的搜索日志为一个用户的查询日志块；3)对相同用户的查询日志块用时间划分，将查询时间间隔大于时间阈值的查询划分成不同查询块；查询相似度计算包括查询词相似度计算、查询结果相似度计算及查询相似度输出，查询词相似度计算包括以下步骤：1)输入用户查询块中的查询语句，将查询语句的词进行分词，去掉停用词；2)在经过分词的查询语句中提取查询关键词；3)计算查询关键词中相同的词和不同的词；4)输出相同的词和查询关键词的比值作为查询词相似度；查询结果相似度计算包括以下步骤：1)提取查询返回的结果网页作为输入；2)提取网页进行文本化，对文本进行分词；3)计算每个单词的TF‑IDF值，将文本向量化；4)通过比较两个查询的距离计算出查询结果相似度；根据查询词相似度和查询结果相似度，输出查询相似度；用户信息需求提供包括以下步骤：1)输入经过时间和用户IP划分的用户搜索日志；2)在划分好的查询块内，计算第一个查询和其他查询的相似度，将相似度高的所有查询归为同一个用户信息需求的搜索任务查询并标记；3)统计用户查询相似度得出用户信息需求，并通过搜索引擎提供给用户个性化需求的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江鸿程计算机系统有限公司，未经浙江鸿程计算机系统有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310125029.8/，转载请声明来源钻瓜专利网。

上一篇：太阳能电池边框拆卸系统
下一篇：基于实际使用频率对应用软件进行排名的系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向用户信息需求的搜索引擎日志数据挖掘的方法有效

专利文献下载