[发明专利]一种基于用户兴趣感知的网页推送系统及方法有效
申请号: | 201210070105.5 | 申请日: | 2012-03-15 |
公开(公告)号: | CN102622445A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 陆以勤;薛晓冬;周耀炎;覃健诚 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 兴趣 感知 网页 推送 系统 方法 | ||
1.一种基于用户兴趣感知的网页推送方法,其特征在于,包括以下步骤:
1)首先通过浏览器、插件或相关的客户端对用户的浏览时长T、是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied的浏览行为信息进行收集,并对用户行为信息进行量化;
2)然后通过判断量化后的浏览时长T与文本长度L的比值T/L是否大于或等于一定阈值Y0进行初步评判用户兴趣度的高低,如果对于用户兴趣度判断为高的情况则进行步骤3);否则通过是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied等用户行为对用户兴趣度的高低进行进评判,如果对于用户兴趣度判断为高的情况则进行步骤3),否则则进行步骤4);
3)对于判定用户兴趣度为高的情况,通过文本密度以及文本密度最大标签的同类标签数目对该网页正文部分进行提取,通过名为TFIDF的方法统计Title、Description、Keywords词汇在正文中的词频以形成表征网页特征的向量,通过浏览器、插件或相关的客户端将向量发送到后台搜索引擎中进行搜索与筛选,推送与该网页内容和主题相近、相似的网页,方法结束,不再执行步骤4);
4)对于通过用户行为判定用户兴趣度为低的情况,对用户IP进行提取,将用户IP地址发送到后台,后台根据用户IP对用户进行定位,推送给用户具有地域特征的新闻和时事。
2.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤1)所述的浏览行为信息是通过浏览器、插件或相关的客户端获取用户的浏览行为,包括:浏览时长T,是否拷贝IsCopied、是否访问过IsAccessed、是否保存标签IsSaved;对用户行为信息IsCopied、IsAccessed、IsSaved三个开关变量进行量化,如果是则为1,否则为0。
3.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤2)包括:在用户阅读过程中如果浏览时长T与文本长度L比值T/L大于或者等于设定阈值Y0则判定用户对正在浏览的网页兴趣为高,或者用户在浏览过程中有拷贝网页内容即IsCopied=1、保存该网页为标签即IsSaved=1、曾经访问过即IsAccessed =1的特殊浏览行为则判定用户兴趣度为高;如果浏览时长T与文本长度L比值T/L小于设定阈值Y0并且没有保存标签即IsSaved=0、没有拷贝文本即IsCopied=0、没有曾经访问过即IsAccessed =0的特殊浏览行为则判定的用户兴趣度为低。
4.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤3)中对网页的正文部分的提取,包括以下步骤:
对于浏览器完成解析HTML文件,生成DOM树后,遍历DOM树寻找文本密度最大的节点;
对于该节点进行判断,如果是则统计其兄弟标签的数目n,所述特殊标签包括br标签或p标签;
如果n大于设定的阈值N0则需对该标签的位置合理性进行判断,判断该标签是否位于标题之下版权信息之上;如果是则提取该标签以及其兄弟标签中的内容;如果否则删除该标签重新执行步骤a)。
5.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤3)中生成表征网页特征的向量,通过对Title、Description、Keywords三大标签中的词汇在文中运用名为TFIDF进行统计词频,归一化,构造向量空间模型,形成表征网页特征的向量。
6.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤3)中将表征网页特征的向量发送给后台,后台进行搜索,对搜索到的网页的Title、Description、Keywords三大标签进行分词、统计词频,形成向量,并与前端浏览器发送过来的向量进行内积运算,筛选出内积大于一定阈值SIM0的N个向量,将对应的网页推送给用户。
7.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤4)对于判定用户兴趣度为低的情况,获取用户的IP地址,将获取到的IP地址发送给后台,后台对IP地址进行定位,进而根据用户地理位置进行热点搜索,推送给用户具有区域特征的新闻、时事类的网页。
8.一种基于用户兴趣感知的网页推送系统,其特征在于包括:
用户行为获取模块,用于获取用户浏览行为——浏览时长、是否保存标签、是否拷贝、是否曾经访问过;
用户兴趣感知模块,用于评判用户对正在浏览的网页的兴趣度,对于用户浏览时长与文本字节数比值大于设定阈值则判定用户对正在浏览的网页的兴趣度为高;如果比值小于一定的阈值,但是用户在浏览过程中有拷贝网页内容、保存该网页为标签、曾经访问过等特殊浏览行为也可判定用户兴趣度为高;如果用户浏览时长与文本字节数比值小于一定的阈值,但是有没有保存标签或将网页内容拷贝等操作,则判定用户对正在浏览的网页兴趣度为低;
推送模块,根据用户行为评判的结果推送给用户特定的网页,对于判定用户兴趣度为高的情况推送与用户正在浏览的网页主题、内容相似、相近的网页,对于用户兴趣度为低的情况推送具有地域特征的新闻、时事;
用户数据处理模块,当用户兴趣度判定为高时,通过浏览器对用户正在浏览的网页形成DOM树,在DOM树中寻找其文本密度最大的节点,判断该标签是否为特殊标签,若是,则统计其兄弟节点中同类型标签数目是否超过设定的阈值,最后对其位置进行合理性查询的方法提取正文,并统计title、description、keywords三大标签中的词汇在正文中的词频,形成表征网页特征的向量;对于用户兴趣度为低的情况,则提取用户IP地址;
后台搜索模块,对于用户兴趣度评判为高的情况,对表征网页特征的向量中权重最大的五个词汇进行搜索,对于用户兴趣度评判为低的情况,对于用户的地理区域进行区域热点的搜索;
网页推送模块,对于后台搜索模块得到的结果以弹窗的形式呈现在用户浏览器端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210070105.5/1.html,转载请声明来源钻瓜专利网。