[发明专利]基于社团发现的主题模型构建方法有效
申请号: | 201710361414.0 | 申请日: | 2017-05-22 |
公开(公告)号: | CN107122494B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 张雷;赵鑫;宋岳;李宁 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06Q50/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社团 发现 主题 模型 构建 方法 | ||
本发明公开一种基于社团发现的主题模型构建的方法的技术方案,先后包括如下步骤:基于短文本数据提取蕴含的关系网络;采用社团发现算法将关系网络划分成多个社团;将各社团中提取的短文本进行扩充以得到具有词共现关系的长文档,并将得到的多个长文档构成长文档集合;针对长文档集合进行主题挖掘,得到基于社团发现的TMCD主题模型。该方法从数据中内在蕴含的社团关系的角度出发,以社团发现算法为基础进行短文本的自扩展,解决了数据稀疏性问题。
技术领域
本发明涉及一种基于社团发现的主题模型构建方法,尤其涉及内部蕴含社会网络的社交型短文本数据主题挖掘的技术。
背景技术
在当前的网络环境下,随着各种线上平台的丰富,大量的社交型数据被产生出来,社交网络俨然已经成为了一个进行信息挖掘的数据源泉。在此场景下产生的数据,大部分又以短文本的形式呈现。相对于长文本,短文本表达的语义简练,传递信息的速度快,是信息传播的一个明显发展趋势。短文本正在成为当今社会最重要的信息载体之一。
目前在对这些数据的分析方法中,通过主题模型挖掘文本内涵的语义信息是一种很有效的方式。经典的主题模型算法,如PLSA、LDA等主要基于双模式和词共现关系对文本进行语义分析。这类算法在对长篇的文档进行处理时效果是显著的,而在针对短文本时,因为词共现关系不足,使算法面临数据稀疏性问题,会严重影响模型质量。
现阶段学术界针对这种短文本的主题模型主要有下面五种处理方案:1)采用简单的拼接,把短文本直接连在一起;2)用引入外界资料库的方法将短文本聚合成长文本;3)从一种启发式的方法来实现,如基于推特内容的标签信息、内容发送的时间流信息或者发送内容的作者等对文本进行扩展;4)对文本的主题采用宽松的假设,假设一个短文本中只包含一个主题;5)对建模对象进行改变。比较有代表性的是Yan等人在2013年提出的BTM模型。
以上方案或强行抹去了文档的边界或受到外界资料的干扰等,具有诸多不足之处。
发明内容
本发明提出一种基于社团发现的主题模型(即TMCD模型,Topic Model based onCommunity Detection)构建方法,该方法可针对社交型数据集构建主题模型,即采用社会发现算法为社交型短文本数据的主题挖掘提供解决方案。TMCD模型从数据中内在蕴含的社团关系的角度出发,以社团发现算法为基础进行短文本的自扩展,解决了数据稀疏性问题。
为解决上述问题,本发明所公开的基于社团发现的主题模型构建的方法的技术方案包括如下步骤:
步骤1、基于短文本数据提取蕴含的关系网络;
步骤2、采用社团发现算法将关系网络划分成多个社团;
步骤3、将各社团中提取的短文本进行扩充以得到具有词共现关系的长文档,
并将得到的多个长文档构成长文档集合;
步骤4、针对长文档集合进行主题挖掘,得到基于社团发现的TMCD主题模型。
进一步的,步骤1中关系网络的提取过程是:采用短文本数据中的主体作为结点,通过主体间交互关系进行关联并抽象形成边,将得到的结点和边共同形成一关系网络。
进一步的,以主体间交互关系的密切程度作为边的权重,以关联的主被动关系作为边的方向。
进一步的,步骤2中所述的社团发现算法包括凝聚、分裂、标签传播和全局探索中的一种或多种。
进一步的,步骤3中是采用自扩展方法对短文本进行扩充。
进一步的,所述短文本数据是内部蕴含着社会网络的社交型数据,所述关系网络是社会网络。
本发明所公开的基于社团发现的主题模型构建方法,为社交型短文本数据的主题挖掘提供了新的解决方案,具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710361414.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:歌曲播放方法和装置
- 下一篇:适用于专利公开科技数据库的信息抓取方法