[发明专利]一种基于社会化标注的个性化搜索方法及系统有效
申请号: | 201510246503.1 | 申请日: | 2015-05-15 |
公开(公告)号: | CN104866554B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 林鸿飞;管毅舟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连星海专利事务所有限公司21208 | 代理人: | 徐雪莲 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于社会化标注的个性化搜索方法及系统,该方法包括以下步骤A、预处理网页内容B、在提取内容集中提取相关向量C、计算用户相似度D、选取相似用户E、计算用户对文档的个性化标签向量F、计算用户的扩展属性向量;G、文档打分及排序;本发明的搜索方法及系统通过用户给出的标签深度挖掘用户的偏好兴趣,即从网页用户的标注信息出发,使用用户主动公开的信息进行个性化优化,避免了隐私和冷启动的问题,完全基于用户本身进行考虑,较好地提升了搜索的准确度。 | ||
搜索关键词: | 一种 基于 社会化 标注 个性化 搜索 方法 系统 | ||
【主权项】:
一种基于社会化标注的个性化搜索方法,其特征在于,该方法包括以下步骤:A、预处理网页内容:对网页逐个进行扫描,采集每个网页中的标识符、网页文档内容、类别、给过标注的用户及对应用户给出的标签并将它们保存下来;对于同一网页,将标识符、网页类别、网页文档内容作为一组数据记录,标识符、给网页标注过的用户及对应用户给出的标签作为另一组数据记录;将所有网页的数据记录分类汇总保存,并对其中的网页文档内容和标签对照停用词表进行去停用词处理,并对网页文档内容和标签进行词干化处理,得到提取内容集;B、在提取内容集中提取相关向量:所述相关向量包括文档内容向量、文档标签向量、用户属性向量以及用户类别向量;文档内容向量的提取方法为:以所有网页文档内容中出现过的词作为向量空间,对该网页文档内容做tf‑idf统计,得到文档内容向量,向量每一维的权重为tf‑idf值;文档标签向量的提取方法为:以所有网页上的标签作为向量空间,对文档被标注过的标签进行词频统计,得到文档标签向量,向量每一维的权重为该标签出现的次数;用户属性向量的提取方法为:对每一个标注过该文档的用户,以所有网页上的标签作为向量空间,对其在该文档上给出的标签进行频率统计,得到用户在该文档上的文档标签向量,向量每一维的权重为用户给出该标签的次数;对于每一个用户,将该用户对应的所有在文档上的文档标签向量进行累加,得到该用户的用户属性向量;用户类别向量的提取方法为:以所有网页类别作为向量空间,对用户标注过的网页的类别进行频率统计,得到用户类别向量,向量每一维的权重为该用户标注过的该类别网页的数量;C、计算用户相似度:对目标用户和其他任一用户的用户属性向量求夹角余弦值得到用户属性相似度;对目标用户和其他任一用户的用户类别向量求夹角余弦值得到用户类别相似度;然后将用户属性相似度乘以用户类别相似度作为目标用户和其他任一用户之间的相似度,公式如下:Persim(u’,u)=Cos(cu',cu)×Cos(pu',pu)其中,u为目标用户,u’为其他任一用户,Persim(u’,u)为两者的相似度,cu为目标用户的类别向量,cu'为其他用户的类别向量,pu为目标用户的属性向量,pu'为其他任一用户的属性向量,Cos(a,b)为a和b的夹角余弦值;D、选取相似用户:根据在0‑1范围内预设的相似度阈值,选择相似度值超过相似度阈值的用户为目标用户的相似用户;E、计算用户对文档的个性化标签向量:对任一篇文档,将每一个目标用户与相似用户的相似度乘以对应相似用户在本篇文档上的标签向量并求和,得到目标用户对文档的个性化标签向量;公式如下:pu,d=Σi=1|Ud∩UT|(υui,d·Persim(ui,u))]]>其中,pu,d为目标用户u对文档d的个性化标签向量,为相似用户ui对文档d的标签向量,Ud∩UT为对文档d标注过的用户与目标用户的相似用户的交集;F、计算用户的扩展属性向量:对目标用户的所有文档的个性化标签向量求和,得到目标用户的扩展属性向量,公式如下:eu=Σi=1Dpu,di]]>其中,eu为目标用户的扩展属性向量,D为整个文档集合;G、文档打分及排序:计算目标用户的文档得分并按照文档得分对文档进行降序排列,输出个性化搜索结果;目标用户的文档得分的获取方法如下:当目标用户提出查询时,对每一篇文档都用向量夹角余弦公式计算查询向量和文档内容向量的得分以及查询向量和文档标签向量的得分,并进行线性插值;之后继续用向量夹角余弦公式计算目标用户的扩展属性向量和其在该文档上的个性化标签向量的得分,与查询向量和文档内容向量的得分以及查询向量和文档标签向量的得分线性插值的结果再一次插值,得到文档对于目标用户的文档得分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510246503.1/,转载请声明来源钻瓜专利网。