[发明专利]基于搜索交互信息和用户搜索意图的词义提取方法有效
申请号: | 201110354655.5 | 申请日: | 2011-11-10 |
公开(公告)号: | CN102339322A | 公开(公告)日: | 2012-02-01 |
发明(设计)人: | 姬东鸿;孙程;吕晨;滕冲 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索 交互 信息 用户 意图 词义 提取 方法 | ||
技术领域
本发明属于信息检索和词义排歧技术领域,尤其涉及一种基于搜索交互信息和用户搜索意图的词义提取方法。
背景技术
近几年,信息检索和词义排歧技术各自的研究和应用非常普遍,但将信息检索和词意排歧技术相结合的研究和应用则较少。
从1998年Google成立开始,信息检索逐渐成为一项主流的技术,最初,信息检索提供人工编辑的目录式检索,典型公司为雅虎。但随着互联网信息的爆炸,人工编辑已不能满足用户的需要,此后,机器自动处理的方式日益成为主流。现今,各类搜索服务已经各具规模,搜索服务可分为水平型和垂直型。水平型用来提供综合服务,在中国,水平型搜索服务的典型代表是百度、谷歌等;垂直型用来对特定领域提供相应服务,在中国,典型垂直型搜索服务的代表是酷讯等。与水平型搜索服务相比,垂直型搜索服务更加贴近用户的特定需求,但还只是面向某个特定的群体或具有某种特点的领域或是特定的应用,还不能做到针对每一个用户个体。
就词义排歧技术而言,传统的方法大多是基于统计学习的方法,用机器自动找出规律,不用人工干预,这种方法称为无导的方法,该方法在特定领域效果不错,但在通用领域效果一般。另外,全部用人工标注处理的词义排歧方法也被使用,这种方法称为全导的方法。还有一种半导的方法,即采用人工标注处理很少的一部分,再用机器处理其他的大部分。上述词义排歧的各类方法中,人工标注处理的人力和物力成本很大且目前的词义排歧没有通过用户的点击情况来划分词义个数的方法。面对当前的情况,不少公司也在起步做个性化搜索服务,但不少还停留在概念和操作性不强的理论上。
现有技术中有各类词义提取方法,但现有的方法大多是在静态文本中进行分析,或是对静态文本进行人工标注后进行处理,前者通常需要限制文本领域,在一般的领域里的效果不好;后者中人工标注成本很大。
发明内容
针对现有技术存在的问题,本发明将信息检索与词义排歧技术相结合,提出了一种基于搜索交互信息和用户搜索意图的词义提取方法,该方法通过对所有用户过往历史交互信息进行分析,并根据分析结果对单个用户提供个性化搜索结果。
为解决上述技术问题,本发明采用如下的技术方案:
基于搜索交互信息和用户搜索意图的词义提取方法,依次包括以下步骤:
步骤一,记录每个用户的历史交互信息,所述的历史交互信息包括查询关键字、查询时间和对应点击;
步骤二,根据步骤一所得的历史交互信息,取所有用户查询频率排名前K1位的查询关键字构建查询关键字向量,查询关键字向量中的每一项对应一特定关键字,其中,K1可根据实验表现设置;
步骤三,根据步骤一所得的历史交互信息,取每个用户自身查询频率前K2位的查询关键字查询后的对应点击结果构建对应点击向量,并在步骤二所构建的查询关键字向量中将每个用户自身查询频率前K2位的查询关键字所对应的项设置为1,其他设置为0,其中,K2可根据实验表现设置;
步骤四,对任意单个高频查询关键字的点击情况进行统计处理,即统计各用户对任意单个高频查询关键字的点击结果中互斥的集合,该互斥的集合的数量极为该查询关键字的义项数量,每个集合中对应的网络资源即为该集合所代表的义项中所对应的资源,所述的高频查询关键字为所有用户查询频率排名前K1位的查询关键字和每个用户自身查询频率前K2位的查询关键字;
步骤五,根据步骤二和步骤三所得的查询关键字向量和对应点击向量中各项的值对用户聚类;
步骤六,根据步骤五所得的聚类结果,计算同类用户对各查询关键字对应义项的偏好排名。
上述步骤五中的聚类采用K-means聚类方法。
上述步骤六中的排名的计算是根据聚类在一起的各用户对各搜索关键字点击结果的频率进行。
与现有技术相比,本发明具有以下优点和有益效果:
1、本发明在词义排歧方面,避免了人工标注导致的成本问题,同时,这种方法又避免了无导方法效果差或是受领域限制的问题;
2、词语义项的确定取之于使用搜索引擎服务的用户,又用于对他们服务,更符合他们的搜索需求;
3、在词义选取方面更好的体现了用户的认知过程;
4、得到的义项分类更能体现用户搜索使用目的。
附图说明
图1为本发明方法的流程图;
图2为用户甲对查询关键字“苹果”的点击情况;
图3为用户乙对查询关键字“苹果”的点击情况;
图4为用户丙对查询关键字“苹果”的点击情况;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110354655.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置