[发明专利]一种基于聚类分析的多数据文档分类方法及系统有效
申请号: | 202211016694.9 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115098690B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 韩承洁;朱健;张鹏;王碧君;穆德龙;杨宗畅;刘明扬 | 申请(专利权)人: | 中信天津金融科技服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/194;G06F40/30 |
代理公司: | 天津易企创知识产权代理事务所(普通合伙) 12242 | 代理人: | 王春梅 |
地址: | 300000 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于聚类分析的多数据文档分类方法及系统,涉及文档数据处理技术领域,输入用于分类的多个文档,根据不同约束从多个文档中提取M个集合;对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;根据排序的前K个关键词语,将每个集合分类为Q个集群,其中每个集群中包括w个关键词语;根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合;重复上述步骤直至所有文档均聚类完成。 | ||
搜索关键词: | 一种 基于 聚类分析 多数 文档 分类 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信天津金融科技服务有限公司,未经中信天津金融科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202211016694.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种机电设备塑料部件成型装置
- 下一篇:一种网络非连续发送和接收的方法和设备