[发明专利]基于话题簇动量模型的新兴热点话题检测系统及方法有效
申请号: | 201711330329.4 | 申请日: | 2017-12-13 |
公开(公告)号: | CN107895053B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 廖祥文;陈国龙;黄海平;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 话题 动量 模型 新兴 热点话题 检测 系统 方法 | ||
1.一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:
一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;
一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;
一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;
一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;
一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;
一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;
以及DBSCAN离群点检测算法模块,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。
2.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
3.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式求解最终的动量模型。
4.一种基于话题簇动量模型的新兴热点话题检测方法,其特征在于: 包括以下步骤:
步骤S1:描述数据预处理模块如何进行数据的预处理;
步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;
步骤S3:话题簇基础上采用动量思想综合利用微博数据特征方面上的增长率和变化量以刻画话题热度的变化趋势;
步骤S4:给定特定时刻点的话题集,每个话题
5.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法,其特征在于:步骤S1中预处理包括以下步骤:
步骤S11: 去除微博内容中网页链接;
步骤S12: 去除微博内容中的表情字符;
步骤S13:去除微博内容常用词;
步骤S15: 过滤掉长度小于5个字符微博;
步骤S16: 过滤掉发表时间错误或者时间过于久远的微博;
步骤S17:过滤掉缺失用户Uid的微博。
6.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法,其特征在于:步骤S3包括以下具体步骤:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711330329.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于模糊认知图的产品创新辅助设计方法
- 下一篇:一种企业邮箱搜索引擎