[发明专利]一种用于批量文档增量的分类系统及方法在审

申请号：	202011610297.5	申请日：	2020-12-30
公开（公告）号：	CN112699939A	公开（公告）日：	2021-04-23
发明（设计）人：	刘振宇;王志刚;王亚平;邓应强;王泽皓	申请（专利权）人：	航天信息股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/216;G06F40/289
代理公司：	北京工信联合知识产权代理有限公司 11266	代理人：	刘海蓉
地址：	100195 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于批量文档增量分类系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于批量文档增量的分类系统，所述系统包括：

文本预处理模块、所述文本处理模块确定批量文件中的每个文件的后缀名，根据后缀名进行文本匹配，读取具有不同后缀名的文件内容，生成文本，获取文本的向量；

文本分类模块、所述文本分类模块，根据文本模型以文本向量作为输入数据，对文本进行分类，获取分类结果，将分类结果高于阈值的文本作为输出类别，将分类结果低于阈值的文本输入至文本聚类模块；

文本聚类模块、所述文本聚类模块对低于阈值的文本进行K-Means聚类计算，选定文本中的聚类簇，获取聚类结果；

文本增量训练模块、所述文本增量训练模块，通过标签抽取的方式对聚类结果的聚类簇中的标签进行抽取，选择标签将聚类结果作为分类模型的训练集并进行增量训练，增加分类模型的类别，获取增加分类的文本模型，使用文本模型对低于阈值的文本进行分类。

2.根据权利要求1所述的系统，所述获取文本的向量，使用向量空间模型进行获取，向量空间模型如下：

V_doc＝[tf₁*idf₁，…，tf_n*idf_n]

tf为词频，idf为逆文档频率，n为文本数量。

3.根据权利要求1所述的系统，所述K-Means聚类计算，利用肘部法则计算不同聚类个数时各个簇的误差平方和的总和，获得曲率变化最大的位置，作为最优聚类个数，所述计算模型如下：

Ci表示第i个聚类簇，K表示聚类簇的个数。

4.根据权利要求1所述的系统，所述增量训练，包括：

对聚类簇中的每个文本进行分词、去停用词及词性筛选的预处理，将预处理后的文本，根据词语和词语之间的关系构成graph，利用TextRank算法抽取每个文本中最重要的TopK个文本标签，增量训练模型如下：

M为预处理后单词的个数，d为阻尼系数，TR(vj)为单词v_j的TextRank值，α和β为分配系数，所述α和β用于分配文档内权重和文档投票权重；ω_ji为节点v_j和节点v_i的连接词频,ω_jk为节点v_j所有出度节点的连接词频，nvi为节点vi在全部文档中出现的文档数，N为聚类簇中的文档个数。

5.根据权利要求4所述的方法，所述TextRank算法根据聚类簇中单词在每个文本中的出现频率进行投票，获得整个聚类簇的标签，使得文档中共同出现的词语能更好的作为标签被取出，将聚类簇中每个文档的标签进行合并取TopK作为文本类别，进行增量训练，自动更新文本分类模型。

6.一种用于批量文档增量的分类方法，所述方法包括：

确定批量文件中的每个文件的后缀名，根据后缀名进行文本匹配，读取具有不同后缀名的文件内容，生成文本，获取文本的向量；

根据文本模型以文本向量作为输入数据，对文本进行分类，获取分类结果，将分类结果高于阈值的文本作为输出类别；

对低于阈值的文本进行K-Means聚类计算，选定文本中的聚类簇，获取聚类结果；

通过标签抽取的方式对聚类结果的聚类簇中的标签进行抽取，选择标签将聚类结果作为分类模型的训练集并进行增量训练，增加分类模型的类别，获取增加分类的文本模型，使用文本模型对低于阈值的文本进行分类。

7.根据权利妖气6所述的方法，所述获取文本的向量，使用向量空间模型进行获取，向量空间模型如下：

V_doc＝[tf₁*idf₁，…，tf_n*idf_n]

tf为词频，idf为逆文档频率，n为文本数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司，未经航天信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】