[发明专利]海量文本的低成本分类与聚类处理方法在审

申请号：	201910599746.1	申请日：	2019-07-04
公开（公告）号：	CN110377737A	公开（公告）日：	2019-10-25
发明（设计）人：	陈泽勇;张治同;张莉;姚松	申请（专利权）人：	成都迪普曼林信息技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	成都金英专利代理事务所(普通合伙) 51218	代理人：	袁英
地址：	610000 四川省成都市武侯区科华北路65***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	海量文本聚类处理向量表达分类语言模型低成本低维聚类主成分分析法单服务器输入向量原始向量高维节约
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了海量文本的低成本分类与聚类处理方法，包括以下步骤：S1：通过预训练语言模型对海量文本输入进行语言模型预训练，得到海量文本的原始高维向量表达；S2：通过PCA主成分分析法对所述原始向量表达进行提取，得到低维向量表达；S3：将所述低维向量表达作为分类与聚类处理方法的输入向量，进行分类与聚类。本方法在对海量文本进行分类与聚类时，兼顾了精度与运行速度，同时仅需单服务器即可实施，节约了算力资源。

技术领域

本发明涉及文本分类与聚类领域，尤其涉及海量文本的低成本分类与聚类处理方法。

背景技术

目前在文本分类/聚类领域存在两种主要的方法，一个是以IF-TDF技术为基础的传统机器学习方法，该方法是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。该类方法的算法的优点是：速度快，消耗算力资源小，短文本效果好；缺点是：由于IF-TDF只统计词频，不考虑语义，因此导致在长文本的分类/聚类时，准确性很低，究其根本原因在于对进行文本分类/聚类时，都不可避免的需要计算各类距离，如欧式距离、海明距离等，在进行这些距离计算时，如果不考虑文本的语义，是一定会产生很大误差的，特别是针对长文本；而且IF-TDF的词典也不可能太长，否则维度太高，导致无法进行计算。

第二种方法是以word2vector等预训练的语言模型为基础的深度学习算法，该类方法的相关算法的优点是：由于训练模型以文本语义为基础，因此无论对长文本还是短文本，分类/聚类的准确性很高；缺点是：训练语言模型非常消耗算力资源，同时运行预训练的语言模对相关海量文本分类/聚类时，对CPU内存的要求非常高，甚至很多情况下单服务器根本不能运行，只能组成服务器集群运行，因此该方案的运行成本是很高的。考虑到精度与所成本资源之间的平衡，在对海量文本进行分类/聚类时，单独使用上述方法是不切实际的。

发明内容

为了解决上述问题，本发明提出一种海量文本的低成本分类与聚类处理方法，包括以下步骤：

S1：通过预训练语言模型对海量文本输入进行语言模型预训练，得到海量文本的原始高维向量表达；

S2：通过PCA主成分分析法对所述原始向量表达进行提取，得到低维向量表达；

S3：将所述低维向量表达作为分类与聚类处理方法的输入向量，进行分类与聚类。

进一步的，所述步骤S1包括以下子步骤：

S11：使用word2vector/BERT模型进行预训练；

S12：使用海量语料样本作为训练样本。

进一步的，所述步骤S2包括以下子步骤：

S21：获取保留99%有效成分情况下的最大贡献数据维度及其具体数据；

S22：使用成熟的sklearn库中的PCA算法。

进一步的，所述步骤S3包括以下子步骤：