[发明专利]一种基于超图排序的新闻推荐方法有效

申请号：	201410299211.X	申请日：	2014-06-27
公开（公告）号：	CN104090936B	公开（公告）日：	2017-02-22
发明（设计）人：	董守斌;古万荣;袁华	申请（专利权）人：	华南理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州市华学知识产权代理有限公司44245	代理人：	蔡茂略
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于超图排序新闻推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及新闻推荐的技术领域，尤其是指一种基于超图排序的新闻推荐方法。

背景技术

在中国经济和互联网飞速发展的今天，越来越多的人选择使用互联网或移动终端来阅读新闻资讯。然而，新闻资讯充裕也会带来信息过载的问题，因此，个性化新闻推荐的应用具有现实意义。现有的个性化新闻推荐方法主要有两种：1)基于历史浏览新闻的内容分析的推荐，即基于内容的推荐。该类方法使用用户以往的浏览新闻纪录，根据分析新闻的内容因素，给用户推荐与历史新闻近似的新闻资讯。该类方法具有较高的准确性，但不容易扩展，即容易反复陷入让用户局限于某特定领域的新闻中，而且多样化性能不高，即推荐的新闻中容易产生聚合粘连。2)基于用户之间的协同性的推荐，即基于协同过滤的推荐。严格来说，完全根据用户和物品之间的协同关系分析相同兴趣用户、或相似物品，并根据这些相似用户或物品来作为推荐依据。

鉴于新闻推荐的对象为新出版新闻(Newly-Published News)，由于新出版的新闻在训练集中不存在，因此，使用协同过滤推荐方法会面临不间断的冷物品问题，因此在新闻推荐中，协同过滤推荐往往会结合基于内容的方法，以融合方式出现。

鉴于以上讨论的新闻推荐的特殊性，新近的新闻推荐方法有以下几种：

1)基于用户历史新闻兴趣的推荐。该类方法即使用了基于内容推荐的原理，直接通过比对用户以往浏览的历史新闻，建立向量空间模型，然后比较待推荐的新闻与历史模型的相似度来推荐。该方法实现简单，推荐解释也充分，但容易产生聚合效应，即推荐结果容易粘连，给用户推荐的新闻都容易围绕同一新闻子集。从原理上来说，采用向量空间模型表示后，用户的兴趣量化为多维空间中的一个点，因此，被推荐的新闻也就根据与这个点的相似度来推荐，因此多样化特性不高，如果用户历史阅读的新闻多样化较好，则推荐结果不仅多样性不足，而且准确度也差。

2)基于新闻聚类簇的推荐。该类方法现将用户历史浏览新闻聚类，然后在待推荐新闻中，找到与这些新闻簇较近的一些新闻作为推荐结果。从原理上来说，用户的历史新闻已经分为多个新闻簇，这对推荐结果的多样化和准确性有更多的支持保障。但也存在一些问题，如聚类簇的多少需要经验指定，同时也不利于用户阅读兴趣的扩展。也有些文献对该方法进行了一些扩展，即使用协同过滤方式来将具有多个历史阅读簇的用户看做是相似用户，以相似用户阅读的新闻作为用户推荐新闻的依据，这一定程度上扩展了用户推荐的范围。

3)基于上下文的新闻推荐。由于新闻是即时资讯，同时也存在比较明显的地域性，因此有些方法基于以上方法，融合了地域、新鲜性和热点性等特点来进行新闻推荐。该类方法对新闻推荐实际应用具有重要意义，但仍然没有解决本质上的用户兴趣度准确刻画、多样性分部的合理性以及推荐的可扩展性。

发明内容

本发明的目的在于克服现有技术的不足与缺陷，提供一种基于超图排序的新闻推荐方法，该方法专门解决互联网环境下的个性化新闻推荐问题，同时也具备较好的冷用户新闻推荐能力，这里的冷用户是指历史阅读量较少的用户，即不活跃用户。

为实现上述目的，本发明所提供的技术方案为：一种基于超图排序的新闻推荐方法，包括以下步骤：

1)预处理

主要处理分类问题和命名实体抽取问题，利用已有的分类标注新闻语料，将用户历史阅读的新闻以及待推荐的新出版新闻进行分类，同时，使用NLP开源工具GATE进行命名实体抽取，使新闻语料具有命名实体关联集；

2)超图构建

定义超图模型中的点、边及其相关的权重；

3)矩阵构建

超图排序所需的矩阵构建，主要有H矩阵、D_e矩阵、D_v矩阵、W矩阵，其中：

H矩阵是超图中的“点-边”关联矩阵，每个元素是h(v,e)，如果点v和超边e关联，则h(v,e)＝1，否则h(v,e)＝0；

D_e矩阵是由所有超边e的度构成的对角矩阵，矩阵中的对角线元素值是每个超边的度，其余元素的值为0，超边e的度数δ(e)＝|e|，即超边中包含的节点度数；