[发明专利]一种基于领域本体的多源个性化新闻网页推荐方法在审
申请号: | 201410797816.1 | 申请日: | 2014-12-19 |
公开(公告)号: | CN104484431A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 吴信东;谢飞;胡学钢;宫雪;郭建波 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 本体 个性化 新闻 网页 推荐 方法 | ||
1.一种基于领域本体库的个性化中文新闻推荐方法,所述中文新闻的领域本体库中包含由一级主题、二级主题和三级主题构成的新闻主题,所述一级主题中包含若干个一级主题词,所述二级主题中包含若干个二级主题词,所述三级主题中包含若干个三级主题词,所述一级主题是所述二级主题的父类,所述二级主题是三级主题的父类,一个一级主题词中包含若干个二级主题词,一个二级主题词中包含若干个三级主题词,从而构成树形结构;由所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库的查询字典;
其特征是按如下步骤进行:
步骤1、建立新闻语料库:
根据所述领域本体库中所有一级主题词,分别从网络上获得类别与所述一级主题词对应的若干新闻,从而构成新闻语料库;所述新闻语料库包括一级主题词和其相应主题词下的若干新闻;
步骤2、抓取新闻:
步骤2.1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻;所述原始新闻包括新闻标题、新闻时间和统一资源定位符URL;
步骤2.2、利用HTML解析器解析所述统一资源定位符URL,获得与所述统一资源定位符URL对应的新闻网页DOM树;所述新闻网页DOM树中包含有节点标签;
步骤2.3、根据所述新闻网页DOM树的节点标签获得与所述统一资源定位符URL相对应的正文标签路径特征序列;
步骤2.4、根据正文标签路径特征序列抓取所述原始新闻的正文内容;由原始新闻的正文内容,新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据库;
步骤3、建立初始用户兴趣模型:
根据用户从所述领域本体库中选出的新闻主题作为用户兴趣主题,建立初始用户兴趣模型
步骤4、建立新闻分类模型:
步骤4.1、将所述原始新闻集中的正文内容进行分词处理获得已分词新闻;
步骤4.2、根据所述一级主题词、二级主题词和三级主题词,利用朴素贝叶斯的文本分类方法将所述已分词新闻进行分类处理获得待推荐新闻集X={x1,x2,…xi,…xm},xi表示第i个待推荐新闻;
利用式(1)获得所述第i个待推荐新闻xi的属于第j个兴趣类别Aj概率P(Aj|xi):
式(1)中,tk表示所述第i个待推荐新闻xi中含有所述查询字典中的任一词语;n表示所述第i个推荐新闻xi中含有所述查询字典中的词语总数;1≤k≤n,TF(tk,Aj)表示任一词语tk在新闻语料库中类别为一级主题词Ej的新闻中出现次数,表示所述第i个待推荐新闻xi中所有词语在新闻语料库中分类为一级主题Ej的新闻中出现的次数之和;
步骤5、个性化推荐:
步骤5.1、利用式(2)获得第i个待推荐新闻xi的推荐分值S(xi),从而获得所有待推荐新闻的分值:
式(2)中,P(Aj|xi)表示第i个待推荐新闻xi属于用户第j个兴趣类别Aj的概率;aj表示所述用户第j个兴趣类别Aj的感兴趣程度;
步骤5.2、将所述所有待推荐新闻的推荐分值进行降序排序,选出前S个待推荐新闻推荐给用户;
步骤6、更新兴趣模型:
利用式(3)更新所述初始用户兴趣模型,从而获得用户兴趣动态模型
式(3)中,Ej表示用户第j个兴趣类别Aj的一级主题词;yμ表示推荐给用户与所述一级主题词Ej对应的任一推荐新闻;λ表示推荐给用户的新闻总条数,1≤μ≤λ;W(yμ|Ej)表示用户对推荐新闻的满意程度;当用户浏览推荐新闻yμ,但未表示满意,则W(yμ|Ej)=χ;当用户浏览推荐新闻yμ,并表示满意,则当用户未浏览推荐新闻yμ,则W(yμ|Ej)=η,D(yμ)则表示所述推荐新闻yμ的获取时间距离浏览日期的时间间隔。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410797816.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:确定网页页面热点区域的方法及装置
- 下一篇:一种数据同步的方法、装置及系统