[发明专利]一种基于用户兴趣的个性化搜索实现方法有效
申请号: | 201410086236.1 | 申请日: | 2014-03-10 |
公开(公告)号: | CN103853831B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 崔自峰;钱葵东 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 胡建华 |
地址: | 210007 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 兴趣 个性化 搜索 实现 方法 | ||
技术领域
本发明涉及一种互联网上实现个性化搜索的技术,特别是一种挖掘和表示用户的兴趣剖像实现基于用户兴趣的个性化搜索实现方法。
背景技术
对于目前基于关键字匹配的搜索引擎,大多数的用户缺乏改善搜索结果的经验,不能精确的表示自己想要的信息。而且搜索引擎用户往往只给出相对较少的查询词(据统计超过70%的搜索词只有一个,90%不超过3个),通过短短的几个词,搜索引擎也无法获知用户的具体需求,搜索引擎会返回的成千上万的结果页面,用户根本就无法逐一浏览,通常只是查看前几页的搜索结果。大量的含有用户搜索关键字的页面可能与用户的兴趣毫无关系。因此对于用户来说,找个适合自己的有用的信息是一件相当费时、费力的事情。
如何能够从用户方获取更多的关于用户的兴趣信息,进而改善用户的搜索是个性化搜索领域需要解决的课题,其中,用户兴趣数据的获取和用户兴趣剖像的表示是个性化搜索研究领域中关键的问题。在对用户兴趣剖像建模方面主要的方法有兴趣特征向量,本体结构化等。兴趣特征向量将用户兴趣剖像信息表达为一组带权重的术语集合,权重大小表示用户的兴趣程度,因为采用向量空间模型表示,这种表达方式的好处是与目前很多的信息检索系统可以很好的匹配,在实现个性搜索的过程中,二维兴趣特征词条通常用于搜索结果的过滤和排序,并没有提高搜索的精度。
从用户兴趣数据来源方式上,主要有(1)用户浏览器的历史页面、收藏和Cache的数据,(2)搜索引擎的日志信息,(3)用户指定的文档或兴趣,(4)用户的搜索反馈和评价。其中,Cui和Liu等人提出从搜索引擎的搜索日志中挖掘用户的搜索信息,以获得普遍用户的共同偏好。存在的问题是用户的搜索记录并不能完全代表个别用户的偏好信息。通过与用户交互的方式,事先要求用户指定自己的兴趣偏好特征,或者用户指定自己的喜好的页面,通过挖掘这些页面得到用户的偏好特征。
从用户兴趣剖像表示方面,主要有二维兴趣特征词条、决策树、兴趣生成树以及本体表示等方法。二维兴趣特征词条将用户的剖像信息表达为一组带权重的术语,权重大小表示用户的兴趣程度,这种表达方式的好处是与目前很多的信息检索系统可以很好的匹配,因为它们大部分仍然是基于向量空间模型,大部分的研究都是基于这种表示方式。本体(ontology)技术的用户剖像是最近热门研究方向的内容,本体正是描述语义Web中语义知识的建模手段,它形式化定义了领域内共同认可的知识,是语义Web体系中的核心。把本体直接应用到目前的检索方式上,仍然存在如果结合完全不同的两种表达体系的问题。
基于代理的个性化搜索,建立专用的个性化代理系统,利用兴趣剖像过滤搜索结果。基于WWW缓冲技术的实时二维兴趣模型,通过粗集理论和关联规则深入挖掘兴趣之间的关联关系,实时二维兴趣模型充分考虑了用户兴趣之间的递推关系。
Letizia系统是由MIT开发的,具有智能导航功能。它采用了一种基于行为的用户兴趣建模方法,即通过跟踪用户的浏览行为推测用户兴趣,建立用户兴趣模型。例如该系统可自动从用户当前页面出发,对所有超链接指向的链宿页面进行宽度优先搜索,在分析页面内容后与用户兴趣模型比较,进而找出用户可能感兴趣的页面,在单独的窗口中显示推荐给用户的URL列表。
LIRA系统是由Stanford开发的,具有主动服务功能的系统。在用户网络浏览过程中选择与用户兴趣模型相似度高的页面提交给用户,并要求用户给出明确的评估值,然后根据用户提供的相关反馈结果修改搜索和选择策略,调整用户兴趣模型。该系统的特点在于利用了启发式搜索算法,对搜索规模进行了限制,从而兼顾了效率。
WebMate系统是一个帮助用户有效地浏览和搜索Web的代理。从Web信息检索的多个方面改善,首先,使用了多个TFIDF向量跟踪用户的兴趣领域,这些领域都是WebMate自动学习的。其次,WebMate使用了Trigger Pair Model自动提取关键词改善页面搜索。再次,搜索过程中,用户可以为搜索提供多个页面作为相似/相关性的引导。
国内目前也有研究个性化搜索的专利,比如一种基于用户停留时间分析的个性化网页搜索排序方法(申请号201110194078.8)依据用户阅读页面的时间推测出感兴趣的概念词,进一步基于概念词来预测搜索结果中每个页面的个性化阅读兴趣。基于链接分析的个性化搜索引擎方法(申请号200510050198.5)通过知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,进而在此基础上展开链接分析得到搜索结果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410086236.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有冲击扳手功能的动力工具
- 下一篇:敏感性皮肤抗刺激组合物及其制备方法