[发明专利]一种社交媒体在线短文本聚类和话题检测方法有效
申请号: | 201610818311.8 | 申请日: | 2016-09-12 |
公开(公告)号: | CN106383877B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 费高雷;蒲昊雨;胡光岷;焦程波;许舟军 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种社交媒体在线短文本聚类和话题检测方法,通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别,一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题,实现了在线大规模短文本的有效聚类。本发明提出的可扩展词向量空间解决了高维稀疏词向量的存储和降低了计算复杂度;本发明采用的利用词语索引加速了聚类方法;改进的“相似胜者合并后全得”的聚类方式和“熵不增加”的相似类合并准则缓解了因短文本特征高维稀疏带来的相同话题类合并不充分问题;本发明采用的热门话题检测识别的方法能对有价值和无价值的话题能做一个比较简单但有效的分类,挖掘跟踪有价值的话题。 | ||
搜索关键词: | 一种 社交 媒体 在线 文本 话题 检测 方法 | ||
【主权项】:
一种社交媒体在线短文本聚类和话题检测方法,其特征在于,包括:S1、对社交媒体短文本进行预处理,得到纯净的带标记的词语序列;S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类,包括以下分步骤:S21、短文本的可扩展词向量构建;S22、短文本与类的余弦相似度计算;S23、根据步骤S22计算新出的文本与类的余弦相似度,选出与新文本余弦相似度高于第一阈值的类,将与新文本余弦相似度最高的类称为最相似类,把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类,分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度,如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值,或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加,则把该候选相似类合并入最相似类;S24、检测和合并相似短文本类,根据两个类的相似度来检测识别出这些未充分合并的类;S3、热门话题的检测,根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测,对热门话题进行识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610818311.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种智能化的项目匹配系统
- 下一篇:一种页面菜单缓存文件的生成方法及装置