[发明专利]基于社团发现的主题模型构建方法有效
申请号: | 201710361414.0 | 申请日: | 2017-05-22 |
公开(公告)号: | CN107122494B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 张雷;赵鑫;宋岳;李宁 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06Q50/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社团 发现 主题 模型 构建 方法 | ||
1.一种基于社团发现的主题模型构建方法,其特征在于,包括如下步骤:
步骤1、基于短文本数据提取蕴含的关系网络;
步骤2、采用社团发现算法将关系网络划分成多个社团;
步骤3、将各社团中提取的短文本进行扩充以得到具有词共现关系的长文档,并将得到的多个长文档构成长文档集合;
步骤4、针对长文档集合进行主题挖掘,得到基于社团发现的主题模型;
步骤3中是采用自扩展方法对短文本进行扩充,具体包括以下步骤:
S3-1在步骤2中社团划分的结果提取一个未扩充社团中所包含的多个结点,然后从每个结点的信息中提取对应的短文本数据;
S3-2把步骤3-1中提取的短文本通过基于自扩充方式进行扩展,得到具有词共现关系的长文档;
S3-3判断是否所有短文本以按照社团划分结果进行了扩充操作,若有未进行扩充的社团则进入步骤3-1,否则进入步骤3-4;
S3-4为返回扩充后的长文档集;
所述短文本数据是内部蕴含着社会网络的社交型数据,所述关系网络是社会网络。
2.如权利要求1所述的主题模型构建方法,其特征在于,步骤1中关系网络的提取过程是:采用短文本数据中的主体作为结点,通过主体间交互关系进行关联并抽象形成边,将得到的结点和边共同形成一关系网络。
3.如权利要求2所述的主题模型构建方法,其特征在于,以主体间交互关系的密切程度作为边的权重,以关联的主被动关系作为边的方向。
4.如权利要求1所述的主题模型构建方法,其特征在于,步骤2中所述的社团发现算法包括凝聚、分裂、标签传播和全局探索中的一种或多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710361414.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:歌曲播放方法和装置
- 下一篇:适用于专利公开科技数据库的信息抓取方法