[发明专利]一种基于聚类分析的多数据文档分类方法及系统有效
申请号: | 202211016694.9 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115098690B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 韩承洁;朱健;张鹏;王碧君;穆德龙;杨宗畅;刘明扬 | 申请(专利权)人: | 中信天津金融科技服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/194;G06F40/30 |
代理公司: | 天津易企创知识产权代理事务所(普通合伙) 12242 | 代理人: | 王春梅 |
地址: | 300000 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚类分析 多数 文档 分类 方法 系统 | ||
本发明提出了一种基于聚类分析的多数据文档分类方法及系统,涉及文档数据处理技术领域,输入用于分类的多个文档,根据不同约束从多个文档中提取M个集合;对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;根据排序的前K个关键词语,将每个集合分类为Q个集群,其中每个集群中包括w个关键词语;根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合;重复上述步骤直至所有文档均聚类完成。
技术领域
本发明涉及文档数据处理技术领域,具体涉及一种基于聚类分析的多数据文档分类方法及系统。
背景技术
随着信息技术的发展,数据系统中记录文本数据日益增多,这些由管理者用自然语言记录的文本数据蕴含着重要的价值;系统文本数据在实际情况中可能出现没有提前标好标签的情况,在无标签的状况下无法使用有监督的机器学习方法进行分类,此时可以使用无监督的文本聚类算法对系统文本数据进行聚类分析。因此有必要研究系统文本数据的聚类分析。
文本聚类可以将同类的数据聚集在一起,进而将同类型的数据进行集中处理,或用相似的数据解决方法去解决同类问题。聚类信息可以应用于制定同类型数据解决方案、数据解决方案智能推荐等任务,大大提高了系统文本数据挖掘的效率和应用价值。
早期的文本分类主要基于人工定义一些规则来对文本进行分类,这种方法需要对专业知识有所了解,并且需要消耗大量的人力物力。随着机器学习的诞生,文本分类算法进入了研究的高峰,大量的实验结果证明机器学习比其手工方法有着更高的准确度,效率也更高,机器学习因此成为了文本分类的主流方法。机器学习方法主要包括朴素贝叶斯算法、人工神经网络算法、K最邻近(K Nearest Neighbor, KNN)算法、卷积神经网络(Convolutional Neural Network, CNN)和支持向量机分类算法等。朴素贝叶斯方法通过计算文本属于某个类别的概率来确定文本的类别,文本属于某类别的概率又取决于文本中包含的词汇属于某类别概率的综合表现。文本聚类的基本思想为:将相似度高的数据划分为相同类别,不同类别的数据的相似度尽可能小。文本分类的任务就是将文本数据分类,例如,将庞大的新闻数据分为政治,经济,文化,科技等类别。文本分类通常是需要一定的训练数据,这些数据事先己经被分好类,将这些训练数据输入到计算机当中,使用分类的方法进行分类。由于事先知道数据的类别,因此可以得知计算机分类的对错,通过不断的改进分类方法,可以使得计算机分类的准确度得到提高。
现有技术中,例如专利文献CN106815310A公开了一种对海量文档集的层次聚类方法及系统,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;对文档集进行聚类分析后生成对应的层次主题树;基于建立的层次主题树对文档集进行层次聚类。但是该技术方案分类器的训练需要使用大量有类别信息的文本数据作为训练集,在大量文本数据的情况下,标注训练数据将会消耗很多的精力,大大降低分类效率,由此也限制了分类算法的应用领域。
再例如专利文献CN113779246A公开了一种基于句子向量的文本聚类分析方法,句子嵌入程序,得到句子向量;将句子向量作为文本聚类程序的输入,得到文本聚类程序的输出类别标签;运行文本聚类程序;在研究文本向量的生成方法的基础上,深入研究了文本向量化后的聚类方法和相关理论,结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析,从海量文本中总结出需求文档的撰写规律。但是该技术方案分类的成本和投入较高,效率不高,且不具备灵活性和自动化处理能力。
发明内容
为了解决上述技术问题,提出了一种基于聚类分析的多数据文档分类方法,包括如下步骤:
步骤S1,输入用于分类的多个文档,并将其存储在文件存储部;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信天津金融科技服务有限公司,未经中信天津金融科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211016694.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机电设备塑料部件成型装置
- 下一篇:一种网络非连续发送和接收的方法和设备