[发明专利]一种用于批量文档增量的分类系统及方法在审

申请号：	202011610297.5	申请日：	2020-12-30
公开（公告）号：	CN112699939A	公开（公告）日：	2021-04-23
发明（设计）人：	刘振宇;王志刚;王亚平;邓应强;王泽皓	申请（专利权）人：	航天信息股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/216;G06F40/289
代理公司：	北京工信联合知识产权代理有限公司 11266	代理人：	刘海蓉
地址：	100195 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于批量文档增量分类系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用于批量文档增量的分类系统及方法，属于数据处理技术领域。本发明系统，包括：文本预处理模块，生成文本，获取文本的向量；文本分类模块，将分类结果高于阈值的文本作为输出类别，将分类结果低于阈值的文本输入至文本聚类模块；文本聚类模块，获取聚类结果；文本增量训练模块，使用文本模型对低于阈值的文本进行分类。本发明利用文本聚类和文本分类相结合的方式，自适应的拓展更新文件类别，可以更好的获得聚类文件中的文件标签，更新训练分类模型。

技术领域

本发明涉及数据处理技术领域，并且更具体地，涉及一种用于批量文档增量的分类系统及方法。

背景技术

随着现代社会文本数据的爆炸式增长，对文本的分类处理变得越来越重要，自适应的文本处理方法面向不具备专业自然语言处理理论知识的业务人员，在日常办公中方便文献的规范梳理，辅助用户使用，提升业务人员办公效率。

文本分类是在预定义的分类标准下，根据文本内容或属性，将给定文本与一个或多个类别相关联的过程。

现有的文本分类方法是利用机器学习或神经网络的方法提高文本分类的准确率，但是常见的文本分类方法需要提前明确分类个数，难以处理具有不断新增的文本类别的业务场景。

发明内容

针对上述问题，本发明提出了一种用于批量文档增量的分类系统，包括：

文本预处理模块、所述文本处理模块确定批量文件中的每个文件的后缀名，根据后缀名进行文本匹配，读取具有不同后缀名的文件内容，生成文本，获取文本的向量；

文本分类模块、所述文本分类模块，根据文本模型以文本向量作为输入数据，对文本进行分类，获取分类结果，将分类结果高于阈值的文本作为输出类别，将分类结果低于阈值的文本输入至文本聚类模块；

文本聚类模块、所述文本聚类模块对低于阈值的文本进行K-Means聚类计算，选定文本中的聚类簇，获取聚类结果；

文本增量训练模块，所述文本增量训练模块，通过标签抽取的方式对聚类结果的聚类簇中的标签进行抽取，选择标签将聚类结果作为分类模型的训练集并进行增量训练，增加分类模型的类别，获取增加分类的文本模型，使用文本模型对低于阈值的文本进行分类。

可选的，获取文本的向量，使用向量空间模型进行获取，向量空间模型如下：

V_doc＝[tf₁*idf₁，…，tf_n*idf_n]

tf为词频，idf为逆文档频率，n为文本数量。

可选的，K-Means聚类计算，利用肘部法则计算不同聚类个数时各个簇的误差平方和的总和，获得曲率变化最大的位置，作为最优聚类个数，所述计算模型如下：

Ci表示第i个聚类簇，K表示聚类簇的个数。

可选的，增量训练，包括：

对聚类簇中的每个文本进行分词、去停用词及词性筛选的预处理，将预处理后的文本，根据词语和词语之间的关系构成graph，利用TextRank算法抽取每个文本中最重要的TopK个文本标签，增量训练模型如下：

M为预处理后单词的个数，d为阻尼系数，TR(vj)为单词v_j的TextRank值，α和β为分配系数，所述α和β用于分配文档内权重和文档投票权重；ω_ji为节点v_j和节点v_i的连接词频,ω_jk为节点v_j所有出度节点的连接词频，nvi为节点vi在全部文档中出现的文档数，N为聚类簇中的文档个数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司，未经航天信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011610297.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一株可缓解腹泻的两歧双歧杆菌及其应用
下一篇：一种基于OCR识别的采集发票数据的系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于批量文档增量的分类系统及方法在审

专利文献下载