[发明专利]基于LDA主题模型的内容推荐方法有效
申请号: | 201710386864.5 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107247751B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 崔晓晖;肖蓉;周锦章;牟成豪 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35 |
代理公司: | 42102 湖北武汉永嘉专利代理有限公司 | 代理人: | 唐万荣;李丹 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 主题 模型 内容 推荐 方法 | ||
本发明公开了一种基于LDA主题模型的内容推荐方法,该方法针对不同一级话题建立不同主题模型,利用模型对网站论坛的用户输入进行主题分析,提炼出五个主题词,形成主题标签组,和用户标签组。然后直接根据主题标签组和用户标签组进行相似度匹配,从而进行相关内容推荐。本发明方法有效地简化了传统内容推荐方法,提高了内容推荐的及时性。
技术领域
本发明涉及网站社区内容推荐技术,尤其涉及一种基于LDA(隐含狄利克雷分布)主题模型的内容推荐方法。
背景技术
现有的推荐系统多基于协同推荐算法,例如基于标签的用户协同过滤的内容推荐方法(基于标签的用户协同过滤内容推荐方法及装置,申请号2016104907106),但是在现有阶段的推荐算法并没有解决标签的问题,仍然需要人为地输入标签。同时基于内容的推荐算法在效率上仍然收到一些限制,在时效性上有所缺陷。针对这些难点以及网络论坛内容推送的需要,自动提取主题关键字并进行相关内容推送具有更多的优势。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于LDA主题模型的内容推荐方法。
本发明解决其技术问题所采用的技术方案是:一种基于LDA主题模型的内容推荐方法,包括以下步骤:
1)根据需求选择网站社区话题数据建立中文语料库;所述网站社区话题数据由该话题下的子话题数据组成;
2)使用LDA主题模型训练文档集,建立多个一级主题LDA模型;
2.1)通过子话题原始数据的人工标签信息,以最小集合的大小确定主题数目;
2.2)针对每一个子话题,使用步骤1)中文语料库中的文档集训练Gensim的主题模型;
2.3)根据主题模型的训练结果,以每个主题的构成的前设定个数的高比重词语作为该主题的主题关键词;
3)接收用户输入信息,针对用户输入信息,通过一级主题LDA模型生成主题词组,应用于该输入和用户,应用步骤如下:
3.1)当用户在论坛中发布帖子时,默认让用户选择论坛中事先设置的一级话题标签,获取帖子和一级话题标签之后运用对应的主题模型进行主题词组提取;
3.2)如果用户针对该发布的帖子,还输入了若干标签,那么将用户输入标签和模型生成的主题词作为最终的主题词组;
3.3)根据最终的主题词组更新用户的标签;
4)根据用户的标签进行匹配推荐:
根据用户的标签,按照词语权重依次减少的顺序筛选相关内容进行推荐。
按上述方案,所述步骤1)中建立中文语料库,包含以下步骤:
1)使用爬虫,获取所选择网站社区话题子话题的数据,各一百个帖子;
2)针对每一子话题,使用结巴分词,过滤停用词以及回答字数较短的回答,每一问题作为文档原始数据;
3)针对每一子话题,通过Gensim的dictionary工具建立词向量以及文档模型建立文档集合。
按上述方案,所述步骤2.3)中设定个数为3个至5个。
按上述方案,所述步骤3.2)中最终的主题词组顺序为用户输入标签在先,模型生成的主题词组在后。
本发明产生的有益效果是:
1.本发明建立了多个一级主题的LDA主题模型,借用了决策树中的小领域专家概念,能够减少由于单一主题模型过大导致的加载和应用较慢的情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710386864.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人工智能交互方法及系统
- 下一篇:一种基于角点描述子的图像检索方法