[发明专利]一种学术资源推荐服务系统与方法有效
申请号: | 201611130297.9 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106815297B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 刘柏嵩;王洋洋;尹丽玲;费晨杰;高元 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 宁波奥圣专利代理事务所(普通合伙) 33226 | 代理人: | 程晓明 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 学术 资源 推荐 服务 系统 方法 | ||
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种学术资源推荐服务系统与以资源推荐服务系统为相关用户提供学术资源推荐服务的方法。
背景技术
目前已经进入大数据时代,在学术资源领域尤其如此,每年都有数以亿计的各类学术资源产生。除了学术论文、专利之外,还有大量的学术会议、学术新闻和学术社区信息等各类学术资源实时涌现,这些类型的学术资源对于用户精准、高效地掌握感兴趣领域的科研现状意义重大。然而,科研用户平时有繁重的科研工作,这类学术资源具有大数据异质、异构且快速增长的特性,在学术资源中基于传统搜索引擎的方式很难查全、查准,搜索过程也显得繁琐,用户在查询感兴趣的学术资源往往需花费大量的时间和精力,影响其工作效率。
当前学术资源个性化推荐研究的对象主要专注于学术论文,推荐学术资源类型单一;不同的用户群体,即不同身份的用户对不同类型学术资源的关注程度不同,当前学术资源的个性化推荐研究并没有考虑这些因素,不能基于用户身份制定多策略的推荐方案。并且,当前学术资源推荐研究仅局限于推荐模块,本发明则为学术资源推荐提供系统化的服务,从学术资源的动态获取、整合和分类,到基于用户身份、行为和兴趣学科进行学术资源的个性化推荐,形成以资源整合和推荐为核心的一体化服务体系。
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。主题是指某个定义好的专业领域或者兴趣领域,例如航天航空,生物医学,信息技术等,具体指一系列相关的词所组成的集合。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别文档中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。LDA主题模型是自然语言处理中主题挖掘的典型模型,可以从文本语料中抽取潜在的主题,提供一个量化研究主题的方法,已经被广泛的应用到学术资源的主题发现中,如研究热点挖掘、研究主题演化、研究趋势预测等。
另外,随着互联网的发现,互联网充塞着大量的各种新闻、博客、会议记要等各种方式的信息文本,这类信息文本或多或少包括学术相关的信息内容,而且往往包括最新的学术研究信息,为各类相关学科人士所关心,而这类信息文本杂乱无序,往往学科重叠,自身一般没有分类信息,现有技术对这类信息文本往往很难做出正确的自动分类,各类相关学科人士采自行用传统搜索引擎的方式很难查全、查准,搜索过程也显得繁琐,用户在查询感兴趣的学术资源往往需花费大量的时间和精力,影响其工作效率。
本发明正是为了解决上述技术问题。
发明内容
本发明所要解决的技术问题是针对上述技术现状,提供一种学术资源推荐服务系统与以资源推荐服务系统为相关用户提供学术资源推荐服务的方法。
本发明解决上述技术问题所采用的技术方案为:
一种学术资源推荐服务系统,所述学术资源为公布在互联网上的各种电子文本,所述学术资源推荐服务系统包括网络爬虫、文本分类模型、学术资源数据库,由网络爬虫在互联网上爬取学术资源,其特征在于,用文本分类模型按预定A个类别分类后存储于本地的学术资源数据库,提供学术资源数据库开放的API供展示及资源推荐模块调用,所述学术资源推荐服务系统还包括学术资源模型、资源质量值计算模型、用户兴趣模型,在用户的终端殖入跟踪软件模块,用于跟踪记录用户的网上浏览行为;基于不同群体用户的历史浏览行为数据,计算不同身份的用户对各个类型学术资源的关注程度,从资源类型、学科分布、关键词分布和LDA潜在主题分布共四个维度对学术资源建模,结合用户的兴趣学科和历史浏览行为数据,对用户的兴趣偏好建模,计算学术资源模型与用户兴趣偏好模型之间的相似度,再结合资源质量值计算推荐度,最后根据推荐度为用户进行学术资源Top-N推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611130297.9/2.html,转载请声明来源钻瓜专利网。