[发明专利]一种基于用户兴趣感知的网页推送系统及方法有效
申请号: | 201210070105.5 | 申请日: | 2012-03-15 |
公开(公告)号: | CN102622445A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 陆以勤;薛晓冬;周耀炎;覃健诚 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 兴趣 感知 网页 推送 系统 方法 | ||
技术领域
本发明涉及互联网领域,特别涉及一种基于用户的兴趣感知的网页推送方法及系统。
技术背景
伴随着互联网的高速发展,互联网内容极大的丰富,人们可以很方便的借助网络获得自己想要的信息、资源等。网页的规模反映了互联网的内容丰富程度,从《11年中国互联网络发展状况统计报告》中我们可以看出:自2003 年开始,中国的网页规模基本保翻番增长,2010年网页数量达到 600亿个,年增长率 78.6%。面对网络的汪洋大海,面对如此多的网页、如此多的资源,有一个十分严重的问题摆在我们的面前:如何在如此海量的信息中才能获得自己真正需要的信息?我们不得不承认,在现有的模式下我们只能费时、费力的去搜寻、去筛选自己需要的或是真正感兴趣的信息。
在这个分秒必争的时代,如何帮助用户及时高效的获取自己需要的资源和信息显得弥足珍贵;同时,这也成为下一代互联网研究的热点。下一代互联网必然是智能化、个性化、高效的互联网,无论各种网站还是搜索引擎,都在为用户提供高效、智能化、个性化的服务方面竭心尽力,使得用户能够得到很好的体验,从而在网络这个没有硝烟的战场上取得属于自己的一席之地。
Google、百度等优秀搜索引擎,对网络资源进行一定程度的组织,在信息检索方面给人们带来了便利。尽管搜索引擎在响应速度和查全率上有较大的突破,但对于相同的关键词条输入,系统向用户返回的搜索结果是千人一面,不能根据不同用户而区别服务。而返回的搜索结果常常包含着大量与用户搜索意图或者用户兴趣不相关的,甚至重复、过时的信息,而用户又不得不在这些信息中再次进行筛选,造成查准率的低下,在一定程度上影响了用户体验。因此对搜索结果进行再次筛选是十分必要、也是十分必须的。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提供一种基于用户兴趣感知的网页推送系统及方法,当互联网用户面对海量信息时,能自动的够获取用户行为,从而能够感知用户兴趣,并根据用户兴趣进行网页推送,具体技术方案如下。
一种基于用户兴趣感知的网页推送方法,包括以下步骤:
1)首先通过浏览器、插件或相关的客户端对用户的浏览时长T、是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied的浏览行为信息进行收集,并对用户行为信息进行量化;
2)然后通过判断量化后的浏览时长T与文本长度L的比值T/L是否大于或等于一定阈值Y0进行初步评判用户兴趣度的高低,如果对于用户兴趣度判断为高的情况则进行步骤3);否则通过是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied等用户行为对用户兴趣度的高低进行进评判,如果对于用户兴趣度判断为高的情况则进行步骤3),否则则进行步骤4);
3)对于判定用户兴趣度为高的情况,通过文本密度以及文本密度最大标签的同类标签数目对该网页正文部分进行提取,通过名为TFIDF的方法统计Title、Description、Keywords词汇在正文中的词频以形成表征网页特征的向量,通过浏览器、插件或相关的客户端将向量发送到后台搜索引擎中进行搜索与筛选,推送与该网页内容和主题相近、相似的网页,方法结束,不再执行步骤4);
4)对于通过用户行为判定用户兴趣度为低的情况,对用户IP进行提取,将用户IP地址发送到后台,后台根据用户IP对用户进行定位,推送给用户具有地域特征的新闻和时事。
上述的一种基于用户兴趣感知的网页推送方法中,步骤1)所述的浏览行为信息是通过浏览器、插件或相关的客户端获取用户的浏览行为,包括:浏览时长T,是否拷贝IsCopied、是否访问过IsAccessed、是否保存标签IsSaved;对用户行为信息IsCopied、IsAccessed、IsSaved三个开关变量进行量化,如果是则为1,否则为0。
上述的一种基于用户兴趣感知的网页推送方法中,步骤2)包括:在用户阅读过程中如果浏览时长T与文本长度L比值T/L大于或者等于设定阈值Y0则判定用户对正在浏览的网页兴趣为高,或者用户在浏览过程中有拷贝网页内容即IsCopied=1、保存该网页为标签即IsSaved=1、曾经访问过即IsAccessed =1的特殊浏览行为则判定用户兴趣度为高;如果浏览时长T与文本长度L比值T/L小于设定阈值Y0并且没有保存标签即IsSaved=0、没有拷贝文本即IsCopied=0、没有曾经访问过即IsAccessed =0的特殊浏览行为则判定的用户兴趣度为低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210070105.5/2.html,转载请声明来源钻瓜专利网。