[发明专利]一种基于BTM和Single-pass的热点话题发现方法有效
申请号: | 201711210195.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN108197144B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 许国艳;夭荣朋;张网娟;平萍;朱帅;李敏佳 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 btm single pass 热点话题 发现 方法 | ||
本发明提供本发明提供一种基于BTM和Single‑pass的热点话题发现方法,该方法首先利用BTM主题模型进行主题建模,获得语料数据集的主题分布,然后使用VSM进行向量化,再使用改进的Single‑pass算法对上面得到的结果进行聚类,对聚类结果进行整理得到新的聚类结果,其次,对上述热点话题发现方法进行并行化计算,以提高其在大数据量情况下的主题挖掘的速度。本发明可以很好的解决微博数据稀疏及处理海量数据的能力的问题,改进后的Single‑pass算法可以很好的降低计算复杂度,保持算法的稳定性,对新的数据能有效的进行处理,对热点话题的持续影响力有较好的计算分析,且数据集通过MapReduce框架提高数据处理效率的基础上,仍然能够保持话题发现质量。
技术领域
本发明涉及一种基于BTM和Single-pass的热点话题发现方法,属于数据挖掘领域中的文本聚类。
背景技术
随着智能手机及网络的普及,人们能时刻的通过微博APP关注最新的一些国家、社会发生的大事,对微博热点话题进行发现研究在商业、科研等领域都有很大的价值,越来越多的学者针对微博进行相关的研究。
在传统的热点话题发现中,一般都是采用LDA主题模型和K-Means等算法进行研究,然而,传统的LDA模型主要解决的是长文本的问题,对微博之类的短文本数据的处理效果不佳,同时,微博数据具有的数据稀疏、上下文关联性较强等特点,是LDA模型很难解决的。
为了处理大量的数据集,传统的热点话题发现技术已经遇到了瓶颈。首先,在进行热点话题发现的过程中要处理的数据量是巨大的,单个主机、处理器处理起来费时费力。其次,单纯的BTM模型对数据进行主题挖掘的速度过慢,最后其次,在使用BTM主题模型进行建模之后,没有考虑微博流式数据的特性,所以其分类效果还有待提高。因此在分布式环境下对微博热点话题发现显得尤为重要。
发明内容
发明目的:本发明针对现有技术的不足,提出一种适用于短文本、数据稀疏的流式数据的基于BTM和Single-pass的热点话题发现方法,同时,该方法能够适应大数据量情况和加快主题挖掘速度。
技术方案:本发明提供了一种基于BTM和Single-pass的热点话题发现方法,该方法包括MapReduce框架的Mapper阶段和Reducer阶段;
所述Mapper阶段具体包括:
(1)对所述输入的数据集D进行预处理;
(2)将所述预处理后的数据集D平均分到C个节点,每个所述节点包含定量词对,随机为所述词对分配一个主题;
(3)利用BTM主题模型进行主题建模,获得语料数据集的主题分布;
(4)在每个节点上采用VSM对结果进行向量化;
(5)在每个节点上采用改进的Single-pass算法进行聚类分析,得到局部话题;
(6)输出所述局部话题;
所述Reducer阶段具体包括:
(1)输入所述每个节点上的初始化聚类结果;
(2)选取主节点的所述聚类结果作为初始的聚类中心;
(3)采用改进Single-pass算法将其余节点的聚类结果与所述主节点的聚类结果进行聚类操作,最终得出热点话题;
(4)输出所述热点话题。
优选的,步骤(5)中,所述聚类分析具体包括:
(51)将所述节点C按一定规模分成n个数据片C1,C2,...,Cn,将所述数据片按顺序依次作为输入数据;每个所述数据片单独进行内部聚类,得到每个所述数据片的聚类结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711210195.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:GIS系统中专变用户信息识别方法和系统
- 下一篇:食物信息推送方法及装置