[发明专利]一种基于用户双词主题模型的短文本推荐方法在审
申请号: | 201510979801.1 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105608192A | 公开(公告)日: | 2016-05-25 |
发明(设计)人: | 吕建;徐锋;魏杰 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 主题 模型 文本 推荐 方法 | ||
技术领域
本发明涉及文本推荐,特别是侧重于短文本的推荐。在主题分析技术的基础上,扩 展了双词模型,利用了文本的作者信息,有效增强了其在短文本情景下的主题提取能力,并 提高了其在短文本推荐系统中的预测精度。
背景技术
近年来,随着互联网与智能移动设备的快速发展,以Twitter,微博等为代表的社 交媒体应用变得越来越受欢迎,个人网站,博客,社交网站等应用每天会涌现出大量的信 息,使得用户难以获得有效的信息,即导致了严重的信息过载问题,用户很难在大量产生的 信息中找到自己感兴趣的内容。文本推荐,可针对不同用户的具体情况给用户推荐满足其 喜好的文本信息,成为了解决信息过载问题的有效途径。
文本推荐的核心步骤之一是从文本中抽取有价值的特征,主题分析则是一种常见 的特征抽取方法。常见的主题分析技术包括,隐含语义分析(LSA)和隐含狄利克雷分布 (LDA)模型,基于LDA模型,又出现了多个扩展模型如sLDA,Labeled-LDA等,这类方法均利用 到了词语共现的统计数据来分析文本的主题分布。此类方法均以文本中的单词为基本的处 理单位,在文本包含的单词较少的情况下,抽取的主题质量较差,而当前的很多社交媒体如 Twitter、微博等文本信息均为短文本信息,上述主题分析技术较难从这些短文本中抽取出 高质量的主题分布。
为此,也有研究工作基于LDA提出了一种双词主题模型BTM,试图通过单词间共现 关系,扩展单个短文本的单词数量,并将所有文档集合成一个单一的大文档进行处理,此类 方法一定程度上提高了短文本的主题分析质量。但此类方法存在一个较为明显的缺陷,没 有考虑短文本的作者信息,只依赖文本中两个单词的共现来分析短文本的主题,由于丢失 较为重要的信息,导致主题分析的质量难以满足短文本推荐的要求。
发明内容
发明目的:由于传统的以单词为基本处理单位的文本主题分析技术难以高质量地 抽取短文本的主题特征,使得其难以应用于短文本推荐场景,而短文本推荐技术则是解决 当前社交媒体中信息过载问题的有效手段。为此,本发明基于双词主题模型,进一步利用短 文本的作者信息,提出了一种基于用户聚合的双词主题模型,并给出了一种基于此主题抽 取模型的短文本推荐方法,有效地解决了上述问题。
技术方案:一种基于用户双词主题模型的短文本推荐方法,为一种新的基于用户 文本聚合的双词短文本主题分析技术,并利用该主题分析技术来分析用户的历史文本信 息,获取用户的主题偏好,实现了一种个性化的短文本推荐系统。此方法的主要内容包括:
1)构建基于用户文本聚合的双词短文本主题模型-UBTM;
2)基于Gibbs采样的UBTM模型求解及短文本主题推断方法;
构建基于用户文本聚合的双词短文本主题模型-UBTM:
将文档中的任意两个单词配成词对,并且把属于同一个用户的文档聚合在一起, 给出了一个新的概率图模型UBTM。该模型有效解决了短文档的内容稀疏问题,并能估计出 单个用户的主题分布(偏好)。
UBTM模型的用户文档生成过程如下:
依据以上过程,我们可以推断用户u的一个词对b=(wi,wj)的联合概率分布:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510979801.1/2.html,转载请声明来源钻瓜专利网。