[发明专利]基于多维相似度的个性化新闻推荐方法有效
申请号: | 201210355209.0 | 申请日: | 2012-09-21 |
公开(公告)号: | CN102929928A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 叶小卫;曹一鸣;卢美莲;王明华;李佳珊;刘金亮 | 申请(专利权)人: | 北京格致璞科技有限公司;北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 夏宪富 |
地址: | 102399 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 相似 个性化 新闻 推荐 方法 | ||
1.一种基于多维相似度的个性化新闻推荐方法,其特征在于:先从新闻日志抽取设定时间的日志记录,根据日志记录的新闻源地址抓取新闻内容;并从该新闻内容中抽取标题和正文,对其进行分词处理和提取名词,以及采用主题模型对所得到的名词序列进行分析,得到该新闻的主题特征向量;接着,根据新闻的主题特征向量和用户行为数据,分别构建用户模型和新闻模型;根据用户模型、新闻模型和时间特征分别计算用户的内容相似度、行为相似度,以及新闻的内容相似度、行为相似度;再基于内容相似度和行为相似度计算最终的用户相似度和最终的新闻相似度,并分别提取最相似的多个用户和多个新闻;然后,分别依据最近的新闻日志记录和与设定用户最相似的多个相似用户,生成基于用户的个性化推荐结果;或者依据设定用户产生行为的新闻和与该新闻最相似的多个新闻,生成基于新闻的个性化推荐结果。
2.根据权利要求1所述的方法,其特征在于:所述方法包括下列操作步骤:
(1)抓取新闻:根据新闻日志中记录的新闻网页地址、即统一资源定位符URL抓取每篇新闻的标题和正文,并存储于新闻数据库中;
(2)预处理新闻:从新闻数据库中取出新闻标题和正文,并使用分词系统对新闻正文进行分词、词性标注和提取其中名词,组成由新闻标识id-新闻名词序列构成的二维表,并存储于数据库中;
(3)训练主题模型:采用潜在狄利克雷分布LDA和多个主题k对从数据库中读取的新闻id-新闻名词序列表进行主题模型训练,得到每篇新闻的主题模型、即主题特征向量L=(w1,w2,...wl...,wk),且式中,自然数下标l是主题序号,其最大值为主题总个数k,wl是该新闻属于第l个主题的概率;
(4)建立由两个特征组成的新闻模型:一个是行为特征list((u1,t1),(u2,t2),(u3,t3),...),即从新闻日志中获取设定时间内对新闻产生浏览、评论、发布和推荐行为的用户u及其产生行为的时间t的序列;另一个是根据主题模型的训练结果得到每篇新闻的内容特征、即新闻主题特征向量L=(w1,w2,...wl...,wk);
(5)建立由两个特征组成的用户模型:一个是行为特征list((i1,t1),(i2,t2),(i3,t3),...),即从新闻日志中获取设定时间内用户产生行为的各个新闻i及产生行为的时间t的序列;另一个是每篇新闻的内容特征,即用户具有历史行为的所有新闻的主题特征向量的平均值、即用户的主题特征向量式中,n(u)是用户u产生行为的新闻集合,自然数下标i是新闻序号,L为新闻的主题特征向量;
(6)利用用户模型、新闻模型和时间特征分别计算设定时间内所有用户之间的相似度和所有新闻之间的相似度:这两种相似度计算又各自分为行为相似度和内容相似度的计算,再对该两种相似度数值加权求和,作为用户之间和新闻之间的最终融合相似度,然后,分别提取最相似的多个用户和多个新闻存入数据库;
(7)个性化推荐:分别依据最近的新闻日志记录,以及与设定用户最相似多个相似用户,生成基于用户的个性化推荐结果;或者依据设定用户当前产生行为新闻的最相似的多个新闻,生成基于新闻的个性化推荐结果;并实时更新推荐列表,如果当前尚未完成新闻的相似度的计算,则推荐结果维持不变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京格致璞科技有限公司;北京邮电大学,未经北京格致璞科技有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210355209.0/1.html,转载请声明来源钻瓜专利网。