[发明专利]一种基于LDA主题模型的OSN社区发现方法在审
申请号: | 201510611455.1 | 申请日: | 2015-09-23 |
公开(公告)号: | CN105302866A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 曹玖新;马卓;陈巧云;刘波;周涛 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 主题 模型 osn 社区 发现 方法 | ||
1.一种基于LDA主题模型的OSN社区发现方法,其特征在于,利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息进行OSN社区发现过程,包括如下步骤:
1)进行数据集预处理,对原始用户微博文档进行分词、去停顿词、去噪等预处理工作,对记录用户关系的文档中的followers数据集进行用户关系双向化处理并剔除没有好友的用户;
2)根据既定社区元素构建LDA主题模型,包括基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于拓扑连接紧密性构建的主题模型LDA-F,所述LDA-T中词项集是由用户所有推文中的词项构成的集合,文档集是由所有用户的推文构成的集合,主题为社区的集合,所述LDA-F中词项集是由用户的所有好友构成的集合,文档集是由所有用户构成的集合,主题是社区的集合;
3)根据步骤2得到的模型LDA-T和LDA-F,对文档下主题概率分布以及主题下词项概率分布施加Dirichlet分布,生成基于超参数的联合概率分布p(wm,zm,θm,Φ|α,β),其中,α和β是Dirichlet分布的超参数,wm表示第m篇文档中所有词项的集合,zm表示第m篇文档中所有词项对应的主题的集合,θm表示第m篇文档的主题概率分布,Φ表示所有主题下的词项概率分布的集合;
4)根据步骤3得到的联合概率分布,利用吉布斯采样算法估计给定文档时主题的概率分布θm和给定主题时词项的概率分布
5)根据步骤4得到的参数获取社区。
2.根据权利要求1所述的基于LDA主题模型的OSN社区发现方法,其特征在于,所述步骤1去除的噪声包括URL、标点符号、语气词和表情符号。
3.根据权利要求1所述的基于LDA主题模型的OSN社区发现方法,其特征在于,所述步骤2中LDA模型中文档的生成过程和参数约定为:
1)对每个主题k∈[1,K],采样主题k的词项概率分布
2)对每个文档m∈[1,M],采样文档m的主题概率分布θm~Dir(α);
3)对每个文档m∈[1,M],采样文档m的长度Nm~Poiss(ξ);
4)对每个文档m中的词项n∈[1,Nm],选择隐含的主题zm,n~Mult(θm),生成一个词项
其中,Nm表示第m篇文档所包含的词项数,K表示主题数目,M表示文档数目,α、β、ξ为概率分布的参数。
4.根据权利要求3所述的基于LDA主题模型的OSN社区发现方法,其特征在于,所述步骤3生成的联合概率分布为:
其中,wm表示第m篇文档中所有词项的集合,zm表示第m篇文档中所有词项对应的主题的集合,θm表示第m篇文档的主题概率分布,Φ表示所有主题下的词项概率分布的集合,α和β是Dirichlet分布的超参数,wm,n表示第m篇文档的第n个词项,zm.n表示第m篇文档中第n个词项所对应的主题,Nm表示第m篇文档所包含的词项数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510611455.1/1.html,转载请声明来源钻瓜专利网。