[发明专利]基于LDA主题模型的内容推荐方法有效
| 申请号: | 201710386864.5 | 申请日: | 2017-05-26 |
| 公开(公告)号: | CN107247751B | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 崔晓晖;肖蓉;周锦章;牟成豪 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35 |
| 代理公司: | 42102 湖北武汉永嘉专利代理有限公司 | 代理人: | 唐万荣;李丹 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 lda 主题 模型 内容 推荐 方法 | ||
1.一种基于LDA主题模型的内容推荐方法,其特征在于,包括以下步骤:
1)根据需求选择网站社区话题数据建立中文语料库;所述网站社区话题数据由该话题下的子话题数据组成;建立中文语料库具体如下:
1.1)使用爬虫,获取所选择网站社区话题子话题的数据;
1.2)针对每一子话题,使用结巴分词,过滤停用词以及回答字数较短的文本,每一帖子作为文档原始数据;
1.3)针对每一子话题,通过Gensim的dictionary工具建立词向量以及通过文档模型建立文档集合;
2)使用 LDA 主题模型训练文档集,建立多个一级主题LDA模型;
2.1)通过子话题原始数据的人工标签信息,以最小集合的大小确定主题数目;具体如下:
从数据库中获取当前一级话题的所有人工标签信息,进行去重计数,确定主题模型的主题数目 k;所述最小集合为去重后的人工标签信息集合;
2.2)针对每一个子话题,使用步骤1)中文语料库中的文档集训练Gensim的主题模型;
2.3)根据主题模型的训练结果,以每个主题的构成的前设定个数的高比重词语作为该主题的主题关键词;
3)接收用户输入信息,针对用户输入信息,通过一级主题LDA模型生成主题词组,应用于该输入和用户,应用步骤如下:
3.1) 当用户在论坛中发布帖子时,默认让用户选择论坛中事先设置的一级话题标签,获取帖子和一级话题标签之后运用与该一级话题标签对应的主题模型进行主题词组提取;
3.2)如果用户针对该发布的帖子,还输入了若干标签,那么将用户输入标签和模型生成的主题词作为最终的主题词组;
3.3)根据最终的主题词组更新用户的标签;
4) 根据更新后的用户的标签进行匹配推荐:
根据用户的标签,按照标签词语权重依次减少的顺序筛选相关内容进行推荐。
2.根据权利要求1所述的基于LDA主题模型的内容推荐方法,其特征在于,所述步骤2.3)中设定个数为3个至5个。
3.根据权利要求1所述的基于LDA主题模型的内容推荐方法,其特征在于,所述步骤3.2)中最终的主题词组顺序为用户输入标签在先,模型生成的主题词组在后。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710386864.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:人工智能交互方法及系统
- 下一篇:一种基于角点描述子的图像检索方法





