[发明专利]一种短文本在线聚类方法在审
申请号: | 201710816052.X | 申请日: | 2017-09-12 |
公开(公告)号: | CN107609102A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 费高雷;赵海林;胡光岷;于富财 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙)51227 | 代理人: | 周永宏 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种短文本在线聚类方法,对于现有的在线聚类方法准确度不高的问题,本申请通过改进的短文本增量聚类方法,对短文本进行聚类处理,相似度阈值随类中包含的社交短文本数量动态改变,增加了聚类的灵活性;并结合短文本语义相似度,对增量聚类进一步地处理;并引入重聚类、类合并和类修剪,解决在线聚类固有的类中心偏移问题以及短文本聚合性差的问题。 | ||
搜索关键词: | 一种 文本 在线 方法 | ||
【主权项】:
一种短文本在线聚类方法,其特征在于,包括:S1、对获取的社交短文本进行预处理,提取文本特征;所述文本特征包括:短文本中的单词、单词对应的词性以及命名实体标记。S2、根据文本特征,采用向量空间模型计算短文本相似度;S3、若步骤S2中计算出的最大相似度大于设定的第一阈值范围的上限;则将该文本加入到最大相似度对应的已知类;若步骤S2中计算出的最大相似度小于设定的第一阈值范围的下限;则创建一个新类;否则执行步骤S4;S4、根据语义的方法计算与步骤S2计算得到的最大相似度对应的类的相似度,若该相似度大于设定的第一阈值的最大值;则将该文本加入到最大相似度对应的已知类;若计算得到的相似度小于设定的第一阈值的最小值;则创建一个新类;S5、对步骤S4得到的每个类计算类中短文本与当前类中心向量的相似度,对于相似度低于第一阈值范围的下限的短文本则返回步骤S2重新归类;若找到最相似类则将当前类中的该短文本删除,并加入最相似类中,如果没有最相似类则创建新类;S6、对经步骤S5处理之后的类进行合并操作;S7、对经步骤S6处理的类进行修剪操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710816052.X/,转载请声明来源钻瓜专利网。
- 上一篇:智能交互方法、设备及存储介质
- 下一篇:一种基于推特的事件检测方法