[发明专利]一种基于语义的查询推荐方法和系统有效
申请号: | 201510698540.6 | 申请日: | 2015-10-26 |
公开(公告)号: | CN105243149B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 郑海涛;张一驰;赵从志 | 申请(专利权)人: | 深圳市智搜信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市中联专利代理有限公司 44274 | 代理人: | 李俊 |
地址: | 518052 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 查询 推荐 方法 系统 | ||
1.一种基于语义的查询推荐方法,其特征在于,包括:
根据用户历史查询日志数据得到历史查询词,将历史查询词映射成维基百科概念,建立查询概念二元图;所述将历史查询词映射成维基百科概念,进一步包括:将维基百科文档进行加权的倒排索引,构造语义解释器;利用语义解释器将历史查询词映射成维基百科中的概念;
根据用户历史查询日志数据,将历史查询日志与点击URL对应起来,构建查询点击URL二元图,将用户的历史查询和点击行为记录在查询点击URL二元图中;
将所述查询概念二元图和查询点击URL二元图按照查询节点进行合并,形成概念查询点击URL三元图,并建立三层随机游走模型;
根据用户的输入查询词,利用所述三层随机游走模型计算输入查询词节点与概念节点和URL节点之间的游走概率,将输入查询词节点按照游走概率从高到低排列,得到查询推荐列表。
2.根据权利要求1所述的基于语义的查询推荐方法,其特征在于,所述利用语义解释器将历史查询词映射成维基百科中的概念,进一步包括:
将历史查询词进行分词,每个分词与维基百科文档按照TF-IDF值来进行对应。
3.根据权利要求2所述的基于语义的查询推荐方法,其特征在于,所述TF-IDF值计算公式如下:
其中,TF-IDF值代表词i在文档j中对应的权值,TFij是词i在文档j中出现的频率,IDFi是词i在文档j中的逆向文档频率,nij是词i在文档j中出现的次数,∑knkj是在文档j中所有字词的出现次数;|D|为语料库中的文件总数,|{j:ti∈dj}|为包含了词i的文档个数。
4.根据权利要求1所述的基于语义的查询推荐方法,其特征在于,所述利用所述三层随机游走模型计算输入查询词节点与概念节点和URL节点之间的游走概率,计算公式如下:
Pij为一类节点A里的一个节点i一步转移到另一类节点B里的一个节点j的概率,Cij为节点i和节点j连接的权值。
5.根据权利要求1所述的基于语义的查询推荐方法,其特征在于,所述用户历史查询日志数据包括用户名称信息、用户查询内容信息、点击的URL、查询的时间。
6.根据权利要求1所述的基于语义的查询推荐方法,其特征在于,所述三层随机游走模型为三层马尔科夫随机游走模型。
7.一种基于语义的查询推荐系统,其特征在于,包括:
概念映射模块,用来根据用户历史查询日志数据得到历史查询词,将维基百科文档进行加权的倒排索引,构造语义解释器,利用语义解释器将历史查询词映射成维基百科中的概念,建立查询概念二元图;
查询与点击URL对应模块,用来根据用户历史查询日志数据,将历史查询日志与点击URL对应起来,构建查询点击URL二元图;
三层随机游走模块,用来将所述查询概念二元图和查询点击URL二元图按照查询节点进行合并,形成概念查询点击URL三元图,并建立三层随机游走模型;
用户输入模块,用来输入用户查询词;
查询推荐模块,用来利用所述三层随机游走模型计算输入查询词节点与概念节点和URL节点之间的游走概率,将输入查询词节点按照游走概率从高到低排列得到查询推荐列表对用户进行查询推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市智搜信息技术有限公司,未经深圳市智搜信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510698540.6/1.html,转载请声明来源钻瓜专利网。