[发明专利]文档分类方法及装置在审

申请号：	202210576341.8	申请日：	2022-05-25
公开（公告）号：	CN114896404A	公开（公告）日：	2022-08-12
发明（设计）人：	王得贤;李长亮	申请（专利权）人：	北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06V30/148;G06V30/19
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	金鹏
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供文档分类方法及装置，其中所述文档分类方法包括：对待处理文档进行分割，得到多个文本；将多个文本分别输入特征提取模型，确定每个文本的类别特征；对多个文本的类别特征进行组合，得到待处理文档的类别特征向量；将所述类别特征向量输入分类模型，确定所述待处理文档的类别。该方法不仅能够适用于长文档处理，而且能够得到融合了待处理文档全文类别信息的类别特征向量，该类别特征向量不仅能够体现待处理文档中各部分内容的类别特征，还能够体现待处理文档中各部分内容之间的关联，因此将该类别特征向量输入分类模型进行分类，能够给分类模型提供更多的信息，使得分类模型的分类结果更加准确，提高了文档分类的准确率。

技术领域

本说明书涉及数据处理技术领域，特别涉及文档分类方法及装置。

背景技术

文档分类是对文档进行智能识别，从而确定文档的类别，判断该文档是否是目标类别。现有技术中，通常采用基于文本截取的深度学习方法进行文档分类，如对于较长的文档，如3000字以上的文档，因此现有技术一般从文档的前面部分或者中间部分截取部分文本，通过LSTM(Long Short-Term Memory，长短期记忆网络)、CNN(Convolutional NeuralNetworks，卷积神经网络)等神经网络模型对截取的部分文本进行分类，以确定输入文档的类别。

但由于文档较长，无法全部输入神经网络模型，而从文档中截取的部分文本会造成文本信息缺失，影响文档分类的准确性。因此亟需一种文档分类方法以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种文档分类方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文档分类装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种文档分类方法，包括：

对待处理文档进行分割，得到多个文本；

将所述多个文本分别输入特征提取模型，确定每个文本的类别特征；

对所述多个文本的类别特征进行组合，得到所述待处理文档的类别特征向量；

将所述类别特征向量输入分类模型，确定所述待处理文档的类别

根据本申请实施例的第二方面，提供了一种文档分类装置，包括：

分割模块，被配置为对待处理文档进行分割，得到多个文本；

第一确定模块，被配置为将所述多个文本分别输入特征提取模型，确定每个文本的类别特征；

组合模块，被配置为对所述多个文本的类别特征进行组合，得到所述待处理文档的类别特征向量；