[发明专利]基于LDA主题模型的内容推荐方法有效

申请号：	201710386864.5	申请日：	2017-05-26
公开（公告）号：	CN107247751B	公开（公告）日：	2020-01-14
发明（设计）人：	崔晓晖;肖蓉;周锦章;牟成豪	申请（专利权）人：	武汉大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/35
代理公司：	42102 湖北武汉永嘉专利代理有限公司	代理人：	唐万荣;李丹
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 lda 主题模型内容推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于LDA主题模型的内容推荐方法，该方法针对不同一级话题建立不同主题模型，利用模型对网站论坛的用户输入进行主题分析，提炼出五个主题词，形成主题标签组，和用户标签组。然后直接根据主题标签组和用户标签组进行相似度匹配，从而进行相关内容推荐。本发明方法有效地简化了传统内容推荐方法，提高了内容推荐的及时性。

技术领域

本发明涉及网站社区内容推荐技术，尤其涉及一种基于LDA(隐含狄利克雷分布)主题模型的内容推荐方法。

背景技术

现有的推荐系统多基于协同推荐算法，例如基于标签的用户协同过滤的内容推荐方法(基于标签的用户协同过滤内容推荐方法及装置，申请号2016104907106)，但是在现有阶段的推荐算法并没有解决标签的问题，仍然需要人为地输入标签。同时基于内容的推荐算法在效率上仍然收到一些限制，在时效性上有所缺陷。针对这些难点以及网络论坛内容推送的需要，自动提取主题关键字并进行相关内容推送具有更多的优势。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于LDA主题模型的内容推荐方法。

本发明解决其技术问题所采用的技术方案是：一种基于LDA主题模型的内容推荐方法，包括以下步骤：

1)根据需求选择网站社区话题数据建立中文语料库；所述网站社区话题数据由该话题下的子话题数据组成；

2)使用LDA主题模型训练文档集，建立多个一级主题LDA模型；

2.1)通过子话题原始数据的人工标签信息，以最小集合的大小确定主题数目；

2.2)针对每一个子话题，使用步骤1)中文语料库中的文档集训练Gensim的主题模型；

2.3)根据主题模型的训练结果，以每个主题的构成的前设定个数的高比重词语作为该主题的主题关键词；

3)接收用户输入信息，针对用户输入信息，通过一级主题LDA模型生成主题词组，应用于该输入和用户，应用步骤如下：

3.1)当用户在论坛中发布帖子时，默认让用户选择论坛中事先设置的一级话题标签，获取帖子和一级话题标签之后运用对应的主题模型进行主题词组提取；

3.2)如果用户针对该发布的帖子，还输入了若干标签，那么将用户输入标签和模型生成的主题词作为最终的主题词组；

3.3)根据最终的主题词组更新用户的标签；