[发明专利]一种基于用户浏览和搜索行为的关键词计算方法及装置有效
申请号: | 201310077004.5 | 申请日: | 2013-03-11 |
公开(公告)号: | CN103164521A | 公开(公告)日: | 2013-06-19 |
发明(设计)人: | 张一凡;罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 马晓亚 |
地址: | 100193 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 浏览 搜索 行为 关键词 计算方法 装置 | ||
1.一种基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述方法包括:
对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;
对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;
对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;
对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;
对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
2.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;
所述用户浏览行为数据中有其他用户搜索词跳转的某一网页的关键词计算过程为:
从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于1的整数。
3.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;
所述用户浏览行为数据中无其他用户搜索词跳转的某一网页的关键词计算过程为:
抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;
从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于1或等于1的整数。
4.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词具体包括:
统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;
根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;
其中,所述权重由交叉验证得到。
5.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词具体包括:
按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。
6.一种基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述系统包括:
第一类用户关键词计算模块,用于对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;
第二类用户关键词计算模块,用于对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;
第三类用户关键词计算模块,用于对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;
融合模块,用于对生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;
排序选择模块,用于对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310077004.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:进程行为分析方法及系统
- 下一篇:一种对数据业务进行分析的方法