[发明专利]一种面向大规模动态短文本的聚类信息演化分析方法有效
申请号: | 201310716896.9 | 申请日: | 2013-12-20 |
公开(公告)号: | CN104731811B | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 陈蕾;边晓鸿;冯文荣;赵宝瑾;逯登宇;林信惠;李楠;赵丽娜;马一冰 | 申请(专利权)人: | 北京师范大学珠海分校 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向大规模动态短文本的聚类信息演化分析方法,首先结合自组织聚类算法中的神经元表示方法,以神经元代表文档类;然后将作为类别代表的神经元均匀的分摊到各单片机上,使每个单片机上存在小规模的局部神经元集合;接着以迭代调整思想为基础,对类别划分结果进行局部并行调整;再接着在进行多次局部并行调整后再进行一次全局同步调整,以完成网络海量数据的快速聚类;最后分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信息的演化过程。本发明通过迭代的运行“局部并行调整”和“全局同步调整”将特征选择和类别划分融合到一起,实现对大规模网络动态短文本的快速聚类,极大地提升了运行效率。 | ||
搜索关键词: | 一种 面向 大规模 动态 文本 信息 演化 分析 方法 | ||
【主权项】:
1.一种面向大规模动态短文本的聚类信息演化分析方法,首先结合自组织聚类算法中的神经元表示方法,以神经元代表文档类;然后将作为类别代表的神经元均匀的分摊到各单片机上,使每个单片机上存在小规模的局部神经元集合;接着以自组织聚类算法中的迭代调整思想为基础,对类别划分结果进行局部并行调整;再接着在进行多次局部并行调整后再进行一次全局同步调整,以完成面向海量短文本数据的快速聚类;最后在此基础上通过分析、对比不同时间段内的聚类模型的改变情况以获取短文本数据中所蕴含的不同信息的演化过程;其特征在于,所述“对类别划分结果进行局部并行调整”,具体包括以下步骤:a1.采用分布式词聚类方法从待聚类的短文本数据集合中随机选择一篇文档,设其为di;a2.采用迭代的语义相似度计算方法来计算di与当前单片机上的局部神经元集合中每个神经元之间的相似度,并选取与di具有最大相似度的神经元,设其为nj;a3.调整nj中特征的权值,并采用迭代的语义相似度计算方法在局部神经元集合中找到与nj最相似的神经元,设其为nb;a4.检测nj和nb间是否存在边,如果不存在边,则创建一条边以连接它们,设nj和nb间的边为ljb;a5.更新ljb的权值,并赋ljb的更新时间参数为0;a6.将局部神经元集合中所有神经元间的边的更新时间参数加1;a7.检测上述所有边,如果某条边的更新时间参数超过所有边的平均值,则删除此边,并执行迭代次数t=t+1;a8.检测短文本到其聚类中心的平均距离,当距离小于聚类过程的收敛阈值u时,停止聚类过程进入聚类模型量化过程,否则转入全局同步调整步骤或返回开始。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学珠海分校,未经北京师范大学珠海分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310716896.9/,转载请声明来源钻瓜专利网。