[发明专利]一种基于BTM和Single-pass的热点话题发现方法有效
申请号: | 201711210195.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN108197144B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 许国艳;夭荣朋;张网娟;平萍;朱帅;李敏佳 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供本发明提供一种基于BTM和Single‑pass的热点话题发现方法,该方法首先利用BTM主题模型进行主题建模,获得语料数据集的主题分布,然后使用VSM进行向量化,再使用改进的Single‑pass算法对上面得到的结果进行聚类,对聚类结果进行整理得到新的聚类结果,其次,对上述热点话题发现方法进行并行化计算,以提高其在大数据量情况下的主题挖掘的速度。本发明可以很好的解决微博数据稀疏及处理海量数据的能力的问题,改进后的Single‑pass算法可以很好的降低计算复杂度,保持算法的稳定性,对新的数据能有效的进行处理,对热点话题的持续影响力有较好的计算分析,且数据集通过MapReduce框架提高数据处理效率的基础上,仍然能够保持话题发现质量。 | ||
搜索关键词: | 一种 基于 btm single pass 热点话题 发现 方法 | ||
【主权项】:
1.一种基于BTM和Single‑pass的热点话题发现方法,其特征在于,该方法采用MapReduce分布式并行化处理,包括MapReduce框架的Mapper阶段和Reducer阶段;所述Mapper阶段具体包括:(1)对所述输入的数据集D进行预处理;(2)将所述预处理后的数据集D平均分到C个节点,每个所述节点包含定量词对,随机为所述词对分配一个主题;(3)利用BTM主题模型进行主题建模,获得语料数据集的主题分布;(4)在每个节点上采用VSM对结果进行向量化;(5)在每个节点上采用改进的Single‑pass算法进行聚类分析,得到局部话题;(6)输出所述局部话题;所述Reducer阶段具体包括:(1)输入所述每个节点上的初始化聚类结果;(2)选取主节点的所述聚类结果作为初始的聚类中心;(3)采用改进Single‑pass算法将其余节点的聚类结果与所述主节点的聚类结果进行聚类操作,最终得出热点话题;(4)输出所述热点话题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711210195.2/,转载请声明来源钻瓜专利网。
- 上一篇:GIS系统中专变用户信息识别方法和系统
- 下一篇:食物信息推送方法及装置