[发明专利]一种文档分类的方法及装置在审

申请号：	201510974508.6	申请日：	2015-12-22
公开（公告）号：	CN105630931A	公开（公告）日：	2016-06-01
发明（设计）人：	唐旋;毛立花;王传超	申请（专利权）人：	浪潮软件集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	济南信达专利事务所有限公司 37100	代理人：	李世喆
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文档分类的方法，其特征在于，包括：

S1：获取多个训练文档，确定每个训练文档对应的类别；

S2：根据每个类别对应的训练文档，确定每个类别的特征向量，所述特征向量包括：在对应的当前类别中出现的词串，每个词串出现在当前类别的出现概率；

S3：获取当前待分类文档，从当前待分类文档中，提取当前待分类文档的匹配特征向量，所述匹配特征向量包括：当前待分类文档中出现的待匹配词串；

S4：根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率，确定所述匹配特征向量与每个类别的特征向量的相似度；

S5：将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。

2.根据权利要求1所述的方法，其特征在于，所述S2，包括：

将每个类别对应的训练文档处理成纯文本文档，对每个训练文档对应的纯文本文档进行分词，获得每个训练文档对应的多个单词；

将每个训练文档中相邻的预设值个单词组成词串，确定每个词串对应的类别的出现概率；

根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率，确定每个类别的特征向量。

3.根据权利要求2所述的方法，其特征在于，所述S3，包括：

将当前待分类文档处理成纯文本文档，对当前待分类文档对应的纯文本文档进行分词，获得当前待分类文档对应的多个单词；

将当前待分类文档中相邻的所述预设值个单词组成词串；

根据当前待分类文档中的词串确定所述匹配特征向量。

4.根据权利要求1所述的方法，其特征在于，所述S4，包括：

根据每个类别的特征向量，确定每个所述待匹配词串在每个类别的出现概率；

针对每个类别，确定所述当前待分类文档的所有待匹配词串在当前类别的出现概率之和，将当前类别对应的出现概率之和作为当前类别对应的相似度。

5.根据权利要求1-4中任一所述的方法，其特征在于，在所述S2之后，在所述S3之前，还包括：

A1：获取多个测试文档，确定每个测试文档的实际类别；

A2：从每个测试文档中，获取待测试词串；

A3：根据每个类别的特征向量，确定每个待测试词串在每个类别的出现概率；

A4：针对每个类别，确定所述当前测试文档的所有待测试词串在当前类别的出现概率之和；

A5：将出现概率之和最大的类别作为所述当前测试文档对应的匹配类别；

A6：根据每个测试文档的匹配类别和每个测试文档的实际类别，确定每个类别对应的分类准确率；

A7：分别判断每个类别对应的分类准确率是否大于等于预设准确率阈值，如果是，则执行步骤S3，否则，执行步骤A8；

A8：将所述多个测试文档作为所述训练文档，执行步骤S1。

6.一种文档分类的装置，其特征在于，包括：

第一获取单元，用于获取多个训练文档，确定每个训练文档对应的类别；

训练单元，用于根据每个类别对应的训练文档，确定每个类别的特征向量，所述特征向量包括：在对应的当前类别中出现的词串，每个词串出现在当前类别的出现概率；

第二获取单元，用于获取当前待分类文档，从当前待分类文档中，提取当前待分类文档的匹配特征向量，所述匹配特征向量包括：当前待分类文档中出现的待匹配词串；

确定单元，用于根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率，确定所述匹配特征向量与每个类别的特征向量的相似度；

分类单元，用于将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司，未经浪潮软件集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510974508.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载