[发明专利]一种多层潜变量模型用户画像提取的方法有效
申请号: | 201610250016.7 | 申请日: | 2016-04-21 |
公开(公告)号: | CN105869058B | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 毋立芳;王丹;刘爽;张磊;刘海英;张岱 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/9535;G06F17/21 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种多层潜变量模型用户画像提取的方法,涉及数据挖掘和推荐系统领域。本发明是面向社交策展网络提取用户画像,针对收藏条目的文本描述信息和转发链上用户行为的两种模态的数据,提出了一种多层潜变量模型的用户画像提取方法。引入LDA模型对文本描述信息得到用户隐含主题分布,基于用户隐含主题分布的到主题兴趣分布;结合用户隐含主题分布和主题兴趣分布得到用户的兴趣分布。基于多层潜变量模型发现用户社会化社区,并结合Jensen‑Shannon散度升序排序得到用户推荐结果。本发明利用用户文本信息和转发链用户行为两种不同模态的信息进行用户社会化社区发现,实现用户推荐。 | ||
搜索关键词: | 一种 多层 变量 模型 用户 画像 提取 方法 | ||
【主权项】:
1.一种多层潜变量模型用户画像提取的方法,其特征在于该方法包括:A、建立词库和停用词库,利用分词工具ICTCLAS对用户所有收藏条目的文本描述信息进行分词;B、在社交策展网络中,当前用户的收藏条目均能被其他用户进行转采;用户若转采一个收藏条目,则会将该收藏条目所有自身信息复制一份到自身的收藏册内;采集目标用户集合所有收藏条目转发链数据,根据收藏条目中转发自何人的数据,获取每一条收藏条目到原始收藏条目的数据;从当前收藏条目开始向父级爬取数据;根据转发自何处这一数据作为指导,一直追溯到原始收藏条目位置;在追溯过程中的每一个结点都是原始收藏条目的复制,而由这些结点构成了一条链状的路径图,称之为“转发链”;每个转发链均由一个包含若干收藏条目的集合构成;以每个转发的收藏条目的创建用户ID来代表该转发链上的一个结点;C、对目标用户集合的所有文本信息和转发链数据构成的集合提取用户兴趣模型;所述步骤C具体包括:C1、第一层模型是计算用户收藏条目文本描述信息的隐含主题;C2、计算每个收藏条目属于每个主题的概率;C3、第二层模型是计算隐含主题的兴趣分布;C4、计算用户的兴趣分布;D、基于多层潜变量模型的用户推荐;所述步骤C1包括:C11、用户文本信息经过LDA模型,通过隐含主题把用户和文字进行关联生成用户‑主题‑词三层贝叶斯模型;C12、用Perplexity度量第一层LDA模型,计算模型Perplexity,选取最佳主题数NT1用于下一步;![]()
其中,Utest为测试集合用户,Ut为测试集合的用户总数,wu为用户u的收藏条目描述信息的单词集合,p(wu)为用户u的收藏条目描述信息的单词集合在用户模型下生成概率,Nu为用户u的收藏条目描述信息的单词集合的单词总数;K为主题总数,Nm为所有用户收藏条目描述信息的单词集合;所述步骤C2包括:C21、一个收藏条目的描述信息可能由用户创建也可能是转采来的,由一组词组成,表示成wpin={w1,w2,…wi…,wN},其中,wi为收藏条目描述信息第i个单词,N为收藏条目描述信息单词集合总数;主题集合
是词的概率分布,其中,zk为第k个主题,NT1为最佳主题数;用
表示一个收藏条目pin属于一个主题zk的概率;
C22、根据第一层LDA模型的结果,计算每个收藏条目pin属于一个主题zk的概率
选择0.2作为临界值,如果
则收藏条目属于这个主题;这样得到属于NT1个最佳主题的收藏条目的集合;所述步骤C3包括:C31、每个收藏条目用转发链上的用户ID表示;C32、对隐含主题经过LDA模型得到主题‑兴趣‑用户ID的三层贝叶斯模型,得到隐含描述信息主题的兴趣分布;所述步骤C4包括:C41、结合用户隐含主题分布和主题的兴趣分布,经过矩阵相乘,计算得到用户的兴趣分布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610250016.7/,转载请声明来源钻瓜专利网。