[发明专利]一种移动场景下的搜索结果过滤方法有效
申请号: | 201110458155.6 | 申请日: | 2011-12-31 |
公开(公告)号: | CN102591966A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 金海;赵峰;袁平鹏;严奉伟;方飞;谢海洋 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种移动场景下的搜索结果过滤方法,根据用户历史位置信息特征将用户细分成不同的群体;再根据用户的历史查询记录对用户进行特征建模;分析用户历史通话记录,构建用户社交关系网络,计算出用户之间的关系重要程度;搜索时先利用建立的用户特征模型对搜索结果进行基于内容的过滤,再采用细分得到的用户群体信息和挖掘的用户社交网络信息对搜索结果进行协同过滤,最终返回给用户。本发明通过挖掘用户特征和信息过滤的方法,能较好地对搜索结果进行个性化的过滤,去掉大量不相关的搜索结果,精简结果集,实现移动场景下的个性化的精准搜索。 | ||
搜索关键词: | 一种 移动 场景 搜索 结果 过滤 方法 | ||
【主权项】:
1.一种移动场景下的搜索结果过滤方法,该方法包括下述步骤:第1步对用户Ui,i=1,2,...,N的待过滤初始结果集R1,R2,...,RZ,利用d维向量空间对待过滤结果建立特征向量,Rr的特征向量表示为fRr={q1,v1),(q2,v2),...,(qd,vd)},va代表各个维上的权值;利用词频/逆文档频率TF/IDF模型计算fRr,在每一维上的权值va,对q1,q2,...qd中的每一个词qa,如果其没有出现在Rr,中,则其权值为0,否则为其TF/IDF值,TF为其在Rr中出现的次数,IDF即逆文档频率,统计那些包含该词的结果个数z;其中,IDF值即log(Z/z),Z是待过滤初始结果的个数,TF/IDF值为TF与IDF的乘积,r=1,2,...,Z,a=1,2,...,d;第2步寻找当前用户Ui,的相似用户,从下述两个用户集合中选取,一是用户所属的群体Gg,g为用户所属的群体的序号,其取值范围为1至m,二是用户社交网络里的用户的集合,将这两个集合进行合并得到集合S,记该集合中的用户为Uis,利用式I所示的向量余弦夹角公式计算用户Ui与集合S中的每一个用户Uis之间的相似度,如式II所示,向量夹角越小,余弦值越大,相似度越大,反之亦然;i表示用户的序号,N表示用户的数量,i=1,2,...,N,fUi和fUis分别代表Ui和Uis的特征向量,ψ(Ui,Uis)代表Ui与Uis之间的关系程度,若Uis在Ui的社交网络中,则ψ(Ui,Uis)取相应的值,否则取零值;按相似度从高到低选取前η个用户Ui1,Ui2,...,Uiη,若不足η个,则选取S中的所有用户;η为预先设定值;sim ( U i , U is ) = ( 1 + ψ ( U i , U is ) ) · cos ( f U i , f U is ) ]]> 式Icos ( f U i , f U is ) = f U i · f U is | | f U is | | · | | f U is | | ]]> 式II第3步基于内容过滤:对每一条待过滤初始结果Rr,采用式III依次计算其与用户Ui之间的相似度,fUi和fRr分别代表Ui和Rr的特征向量;根据相似度按预先设定的阈值ζ过滤,将相似度小于阈值ζ的初始结果过滤掉,得到中间结果集Rr,r=1,2,...,Zζ,过滤得到的中间结果按原有的先后顺序排列;sim ( U i , R r ) = cos ( f U i , f R r ) ]]> 式III其中,cos ( f U i , f R r ) = f U i · f R r | | f U i | | · | | f R r | | ]]> 第2步对中间结果集Rr,r=1,2,...,Zζ进行协同过滤,利用用户Ui的η个最相似用户Ui1,Ui2,...,Uiη,对中间结果Rr,,按式IV计算相似度sim′(Ui,Rr)进行协同过滤,式中,
和
分别代表Uis与Ui,Uis与Rr之间的相似度;sim ′ ( U i , R r ) = Σ s = 1 η ( cos ( f U is , f U i ) · cos ( f U is , f R r ) ) ]]> 式IVRankr=θ·r+(1-θ)·sim′(Ui,Rr) 式V根据sim′(Ui,Rr)按预先设定的阈值ε进行协同过滤,将相似度小于ε的中间结果过滤掉,得到临时结果集Rr,r=1,2,...,Zε,r代表其在临时结果集中的先后顺序排序,依次为1,2,...,Zε,对临时Rr,,以预先设定的加权系数θ利用式V计算其顺序r和sim′(Ui,Rr)的加权和,作为最终结果排名Rankr,以此排名对临时结果集Rr,重新排序,得到最终结果,返回给用户,过滤过程结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110458155.6/,转载请声明来源钻瓜专利网。