[发明专利]一种基于BTM和Single-pass的热点话题发现方法有效

专利信息
申请号: 201711210195.2 申请日: 2017-11-28
公开(公告)号: CN108197144B 公开(公告)日: 2021-02-09
发明(设计)人: 许国艳;夭荣朋;张网娟;平萍;朱帅;李敏佳 申请(专利权)人: 河海大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210098 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供本发明提供一种基于BTM和Single‑pass的热点话题发现方法,该方法首先利用BTM主题模型进行主题建模,获得语料数据集的主题分布,然后使用VSM进行向量化,再使用改进的Single‑pass算法对上面得到的结果进行聚类,对聚类结果进行整理得到新的聚类结果,其次,对上述热点话题发现方法进行并行化计算,以提高其在大数据量情况下的主题挖掘的速度。本发明可以很好的解决微博数据稀疏及处理海量数据的能力的问题,改进后的Single‑pass算法可以很好的降低计算复杂度,保持算法的稳定性,对新的数据能有效的进行处理,对热点话题的持续影响力有较好的计算分析,且数据集通过MapReduce框架提高数据处理效率的基础上,仍然能够保持话题发现质量。
搜索关键词: 一种 基于 btm single pass 热点话题 发现 方法
【主权项】:
1.一种基于BTM和Single‑pass的热点话题发现方法,其特征在于,该方法采用MapReduce分布式并行化处理,包括MapReduce框架的Mapper阶段和Reducer阶段;所述Mapper阶段具体包括:(1)对所述输入的数据集D进行预处理;(2)将所述预处理后的数据集D平均分到C个节点,每个所述节点包含定量词对,随机为所述词对分配一个主题;(3)利用BTM主题模型进行主题建模,获得语料数据集的主题分布;(4)在每个节点上采用VSM对结果进行向量化;(5)在每个节点上采用改进的Single‑pass算法进行聚类分析,得到局部话题;(6)输出所述局部话题;所述Reducer阶段具体包括:(1)输入所述每个节点上的初始化聚类结果;(2)选取主节点的所述聚类结果作为初始的聚类中心;(3)采用改进Single‑pass算法将其余节点的聚类结果与所述主节点的聚类结果进行聚类操作,最终得出热点话题;(4)输出所述热点话题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711210195.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top