[发明专利]一种基于社会化标注的个性化搜索方法及系统有效
申请号: | 201510246503.1 | 申请日: | 2015-05-15 |
公开(公告)号: | CN104866554B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 林鸿飞;管毅舟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连星海专利事务所有限公司21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会化 标注 个性化 搜索 方法 系统 | ||
技术领域
本发明涉及一种搜索方法及系统,尤其是一种基于社会化标注的个性化搜索方法及系统。
背景技术
近年来,随着Web2.0的普及和推广,越来越多基于此的应用得到推广以满足用户对互联网日益增加的需求。这其中,包括电子商务网站、博客以及社会化应用,它们使网络进化成为了社会化网络。在社会化网络中,用户可以通过标注等行为在自己感兴趣的文档(包括网页及网页上的资源)上留下合适的记号。
而社会化标注对于个性化搜索是非常有用的资源。一方面,不同用户从不同角度提供的标注对同一文档而言是很好的总结;另一方面,社会化标注可以看作理想化的个性化兴趣数据。这主要是由于:1、社会化标注由用户直接提供,所以这些标注可以被看作用户对于文档的个人意见,收集这些意见可以得到用户的兴趣或偏好;2、标注信息通常较易于通过网络得到并且很少包含敏感信息,所以使用标注信息进行个性化搜索并不需要额外的人力和物力。
由于网络资源的急速增长,信息检索的效率和准确性都受到了不小的挑战,并且由于每一个用户的关注点及兴趣都各不相同,所以如何让每一个用户都能快速准确的找到感兴趣的搜索结果就成了一个重要的问题。传统的方法不考虑用户本身的兴趣,只考虑查询与文档之间的关系,虽然能使搜索结果的内容准确度有一个较好的水平,但依然无法让用户最快速度或许自身能想要的结果。已经有不少研究针对个性化搜索,但各种方法都存在一定的缺点,无法取得特别好的结果。
现有的个性化搜索方法主要分为三种:
1、通过调查问卷等形式让用户主动给出其兴趣,并基于用户给出的兴趣对原始结果进行重新排序。这种方法能取得较好的效果,但由于需要对用户进行调查,所以需要额外的开销,同时也存在用户不肯配合的情况。此外,由于调查问卷内容设置的有限性,所以很难涵盖用户兴趣的各个方面,也很难跟进用户兴趣的转移。
2、基于用户的查询历史进行兴趣的构建,之后结合兴趣对文档进行打分。此种方法不需要额外的开销,但由于查询历史里经常会包含用户的隐私,所以使用此种方法可能会带来潜在的隐私问题。同时,由于用这种方法要求用户曾经有过查询,所以冷启动也是此种方法需要解决的问题。
3、基于用户之间的相似度进行协同过滤,此种方法通过用户查询历史等信息计算用户之间的相似度,然后基于相似度对不同用户的查询结果进行一定比例的融合,得出个性化的搜索结果。此种方法同样需要面对冷启动的问题,同时由于其并不是基于用户本身的兴趣进行搜索,所以在搜索准确度上存在一定的偏差。
发明内容
本发明的目的是提供一种提高用户信息检索的准确性且克服现有技术中搜索结果无法根据用户兴趣改变的缺陷的基于社会化标注的个性化搜索方法及系统。
本发明解决现有技术问题所采用的技术方案:一种基于社会化标注的个性化搜索方法,该方法包括以下步骤:
A、预处理网页内容:对网页逐个进行扫描,采集每个网页中的标识符、网页文档内容、类别、给过标注的用户及对应用户给出的标签并将它们保存下来;对于同一网页,将标识符、网页类别、网页文档内容作为一组数据记录,标识符、给网页标注过的用户及对应用户给出的标签作为另一组数据记录;将所有网页的数据记录分类汇总保存,并对其中的网页文档内容和标签对照停用词表进行去停用词处理,并对网页文档内容和标签进行词干化处理,得到提取内容集;
B、在提取内容集中提取相关向量:所述相关向量包括文档内容向量、文档标签向量、用户属性向量以及用户类别向量;
文档内容向量的提取方法为:以所有网页文档内容中出现过的词作为向量空间,对该网页文档内容做tf-idf统计,得到文档内容向量,向量每一维的权重为tf-idf值;
文档标签向量的提取方法为:以所有网页上的标签作为向量空间,对文档被标注过的标签进行词频统计,得到文档标签向量,向量每一维的权重为该标签出现的次数;
用户属性向量的提取方法为:对每一个标注过该文档的用户,以所有网页上的标签作为向量空间,对其在该文档上给出的标签进行频率统计,得到用户在该文档上的文档标签向量,向量每一维的权重为用户给出该标签的次数;对于每一个用户,将该用户对应的所有在文档上的文档标签向量进行累加,得到该用户的用户属性向量;
用户类别向量的提取方法为:以所有网页类别作为向量空间,对用户标注过的网页的类别进行频率统计,得到用户类别向量,向量每一维的权重为该用户标注过的该类别网页的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510246503.1/2.html,转载请声明来源钻瓜专利网。