[发明专利]基于社区的作者及其学术论文推荐系统和推荐方法有效
申请号: | 201310537842.6 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103559262A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 卢美莲;王萌星;高洁;刘智超;秦臻 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 夏宪富 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社区 作者 及其 学术论文 推荐 系统 方法 | ||
技术领域
本发明涉及一种推荐作者及其学术论文的系统和方法,确切的说,涉及一种基于社区的作者及其学术论文的个性化推荐系统和推荐方法,属于数据挖掘和机器学习的技术领域。
背景技术
2003年,Blei等提出了潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型。随后,研究者对LDA进行了许多改进。基于主题模型的学术论文挖掘是主题模型的一个重要应用,通过对论文主题的挖掘,可以更深入地理解学术论文的发展与进化。2004年,Michal Rosen-Zvi等人在LDA的基础上提出了作者-主题AT(Author-Topic)模型。AT模型是从作者的角度建立学术论文的文本主题模型。对于学术论文语料集合,LDA模型没有考虑论文的作者信息,实际上,它是把所有的作者都看作完全等同的,即所有作者都对应着一个特定的语言模型。在AT模型中,所有的作者共享一个主题的集合。也就是,每个作者不再限定其只能对应一个主题,而是对应于一个主题上的分布;同时文本-主题的分布也随之消失,即被作者-主题的分布取代。
在AT模型中,语料库中的每个作者与T个主题的一个多项分布相对应,将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为。这两个参数θ和分别有一个带有超参数α和β的Dirichlet先验分布。对于一篇文本d,首先从该文本d的作者中抽取一个作者,再从该作者所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的多项分布中抽取一个单词w。然后,重复执行该过程N次,就生成了一个文本,这里的N是文本的单词总数。这个生成过程参见图1所示。图1中的阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依赖性,方框表示重复抽样,重复次数在方框的右下角。该模型有两个参数需要推断:一个是作者-主题分布θ,另外是主题-单词分布。通过学习这两个参数,就能够获知作者感兴趣的主题。
2006年,Wang等人在LDA的基础上提出了非马尔科夫连续时间模型,即时间主题TOT(Topic-Over-Time)模型。TOT模型认为:对于一个文本,除了文本信息可见以外,时间标签也是可见信息,主题的发现不仅仅受到单词的出现频率的影响,还受到时间变化的影响。TOT模型通过主题分布信息同时与单词和时间标签相关联。对于语料库中的每篇文本,TOT定义了如下生成过程(参见图2所示):对任意一篇文本d,从对应的文本-主题分布θ中抽取一个主题,根据抽取的主题对应的主题-单词分布中,再抽取一个单词;还根据抽取的主题对应的主题-时间分布ψ中,抽取一个时间戳。重复上述过程,直至遍历文本中的每一个单词。该模型有三个参数需要推断:文本-主题分布θ、主题-单词分布和主题-时间分布ψ。通过学习这三个参数,可以知道主题随时间的发展变化。
将主题模型与社区发现算法进行结合是近几年学术挖掘领域的研究热点,利用主题模型提取论文间和作者间的关系,然后利用这些关系结合社区发现算法来提取社区信息。Daifeng Li等人在AT模型的基础上添加了社区的信息,提出作者社区主题模型ACTM(Author-Community-Topic Model),从而可以直接获得作者的社区分布信息,同时还提出了加入了时间信息的动态社区主题模型DCTM(Dynamic Community Topic Model)。DCTM模型在给定的时间段内分别进行ACTM训练,以伯努利分布来判断:当前时间段的社区分布是否与前一时间段有关。但是,该模型是以给定时间范围为基础,不能准确地反映社区、主题随着时间进展而发生的变化,同时该模型仅仅构建了社区,没有提供对社区节点属性的计算方法,尚不能用于作者和论文推荐。
目前的现有技术中,常用的作者和论文推荐推荐方法包括:基于内容的推荐、协同过滤推荐、基于引用网络的推荐等。
基于内容的推荐算法是利用用户以往对作者或论文的操作建立用户兴趣模型,对作者或论文的研究内容进行分析,计算作者或论文与用户兴趣之间的相似性,然后向用户推荐作者或论文。但是,该方法有以下缺点:用户仅仅能够得到与其过去喜好类似的论文或作者,而无法得到能够为其拓展研究思路的作者或论文。再者,以论文为例,基于内容的推荐方法对研究内容进行分析,无法有效分辨论文的质量。
协同过滤方法是利用具有共同研究兴趣的群体的喜好来向用户推荐其感兴趣的作者或论文。协同过滤系统能够发现用户未曾接触过的新研究方向中的作者或论文,这是基于内容推荐无法做到的。但其也存在着一些缺陷,最突出的问题是冷启动和稀疏性的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310537842.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种螺纹缺陷检测方法
- 下一篇:一种转子钢焊缝残余奥氏体的检测方法