[发明专利]一种社交媒体在线短文本聚类和话题检测方法有效

专利信息
申请号: 201610818311.8 申请日: 2016-09-12
公开(公告)号: CN106383877B 公开(公告)日: 2020-10-27
发明(设计)人: 费高雷;蒲昊雨;胡光岷;焦程波;许舟军 申请(专利权)人: 电子科技大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种社交媒体在线短文本聚类和话题检测方法,通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别,一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题,实现了在线大规模短文本的有效聚类。本发明提出的可扩展词向量空间解决了高维稀疏词向量的存储和降低了计算复杂度;本发明采用的利用词语索引加速了聚类方法;改进的“相似胜者合并后全得”的聚类方式和“熵不增加”的相似类合并准则缓解了因短文本特征高维稀疏带来的相同话题类合并不充分问题;本发明采用的热门话题检测识别的方法能对有价值和无价值的话题能做一个比较简单但有效的分类,挖掘跟踪有价值的话题。
搜索关键词: 一种 社交 媒体 在线 文本 话题 检测 方法
【主权项】:
一种社交媒体在线短文本聚类和话题检测方法,其特征在于,包括:S1、对社交媒体短文本进行预处理,得到纯净的带标记的词语序列;S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类,包括以下分步骤:S21、短文本的可扩展词向量构建;S22、短文本与类的余弦相似度计算;S23、根据步骤S22计算新出的文本与类的余弦相似度,选出与新文本余弦相似度高于第一阈值的类,将与新文本余弦相似度最高的类称为最相似类,把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类,分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度,如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值,或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加,则把该候选相似类合并入最相似类;S24、检测和合并相似短文本类,根据两个类的相似度来检测识别出这些未充分合并的类;S3、热门话题的检测,根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测,对热门话题进行识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610818311.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top