[发明专利]一种基于LDA主题模型的OSN社区发现方法在审

申请号：	201510611455.1	申请日：	2015-09-23
公开（公告）号：	CN105302866A	公开（公告）日：	2016-02-03
发明（设计）人：	曹玖新;马卓;陈巧云;刘波;周涛	申请（专利权）人：	东南大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06Q50/00
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lda 主题模型 osn 社区发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于LDA主题模型的OSN社区发现方法，其特征在于，利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息进行OSN社区发现过程，包括如下步骤：

1)进行数据集预处理，对原始用户微博文档进行分词、去停顿词、去噪等预处理工作，对记录用户关系的文档中的followers数据集进行用户关系双向化处理并剔除没有好友的用户；

2)根据既定社区元素构建LDA主题模型，包括基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于拓扑连接紧密性构建的主题模型LDA-F，所述LDA-T中词项集是由用户所有推文中的词项构成的集合，文档集是由所有用户的推文构成的集合，主题为社区的集合，所述LDA-F中词项集是由用户的所有好友构成的集合，文档集是由所有用户构成的集合，主题是社区的集合；

3)根据步骤2得到的模型LDA-T和LDA-F，对文档下主题概率分布以及主题下词项概率分布施加Dirichlet分布，生成基于超参数的联合概率分布p(w_m,z_m,θ_m,Φ|α,β)，其中，α和β是Dirichlet分布的超参数，w_m表示第m篇文档中所有词项的集合，z_m表示第m篇文档中所有词项对应的主题的集合，θ_m表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合；

4)根据步骤3得到的联合概率分布，利用吉布斯采样算法估计给定文档时主题的概率分布θ_m和给定主题时词项的概率分布

5)根据步骤4得到的参数获取社区。

2.根据权利要求1所述的基于LDA主题模型的OSN社区发现方法，其特征在于，所述步骤1去除的噪声包括URL、标点符号、语气词和表情符号。

3.根据权利要求1所述的基于LDA主题模型的OSN社区发现方法，其特征在于，所述步骤2中LDA模型中文档的生成过程和参数约定为：

1)对每个主题k∈[1,K]，采样主题k的词项概率分布

2)对每个文档m∈[1,M]，采样文档m的主题概率分布θ_m～Dir(α)；

3)对每个文档m∈[1,M]，采样文档m的长度N_m～Poiss(ξ)；

4)对每个文档m中的词项n∈[1，N_m]，选择隐含的主题z_m,n～Mult(θ_m)，生成一个词项

其中，N_m表示第m篇文档所包含的词项数，K表示主题数目，M表示文档数目，α、β、ξ为概率分布的参数。

4.根据权利要求3所述的基于LDA主题模型的OSN社区发现方法，其特征在于，所述步骤3生成的联合概率分布为：

其中，w_m表示第m篇文档中所有词项的集合，z_m表示第m篇文档中所有词项对应的主题的集合，θ_m表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合，α和β是Dirichlet分布的超参数，w_m,n表示第m篇文档的第n个词项，z_m.n表示第m篇文档中第n个词项所对应的主题，N_m表示第m篇文档所包含的词项数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510611455.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种搜索引擎查询方法及装置
下一篇：一种基于文件序列化的自动机远程分发和初始化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于LDA主题模型的OSN社区发现方法在审

专利文献下载