[发明专利]一种文件分类方法、系统及一种文件分类设备在审

申请号：	201711091476.0	申请日：	2017-11-08
公开（公告）号：	CN107862051A	公开（公告）日：	2018-03-30
发明（设计）人：	毕银龙	申请（专利权）人：	郑州云海信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京集佳知识产权代理有限公司11227	代理人：	罗满
地址：	450018 河南省郑州市***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文件分类方法系统设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文件分类方法，其特征在于，包括：

将采集到的文本进行预处理，并将经过预处理的文本进行分词处理，得到词语序列；

去除所述词语序列中的停用词，得到当前词语序列，并将所述当前词语序列中TF-IDF权重大于预设值的特征词添加至语料词典中；

利用VSM模型对所述语料词典中的特征词进行向量化表示，得到向量矩阵；

将所述向量矩阵输入分类模型中训练所述分类模型，以便对未知文本进行分类。

2.根据权利要求1所述文件分类方法，其特征在于，还包括：

将未知文本经过预处理、分词处理和去除停用词处理后，输入所述训练完成的分类模型中，以便所述训练完成的分类模型输出所述未知文本的类别。

3.根据权利要求1所述文件分类方法，其特征在于，所述将采集到的文本进行预处理，包括：

将采集到的文本去除非主要文本；

其中，所述非主要文本包括非文本数据和/或干扰数据项。

4.根据权利要求1-3任一项所述文件分类方法，其特征在于，所述将当前的词语序列中TF-IDF权重大于预设值的特征词添加至语料词典中，包括：

计算当前的词语序列中每个特征词的TF和IDF，所述TF为所述特征词在当前文本中的词频，IDF为包含所述特征词的文本数的倒数；

将所述TF与所述IDF的乘积作为所述特征词的TF-IDF权重；

判断所述TF-IDF权重是否大于所述预设值，若是，则将所述特征词添加至语料词典中。

5.一种文件分类系统，其特征在于，包括：

预处理模块，用于将采集到的文本进行预处理，并将经过预处理的文本进行分词处理，得到词语序列；

添加模块，用于去除所述词语序列中的停用词，得到当前词语序列，并将所述当前词语序列中TF-IDF权重大于预设值的特征词添加至语料词典中；

向量化模块，用于利用VSM模型对所述语料词典中的特征词进行向量化表示，得到向量矩阵；

训练模块，用于将所述向量矩阵输入分类模型中训练所述分类模型，以便对未知文本进行分类。

6.根据权利要求5所述文件分类系统，其特征在于，还包括：

输入模块，用于将未知文本经过预处理、分词处理和去除停用词处理后，输入所述训练完成的分类模型中，以便所述训练完成的分类模型输出所述未知文本的类别。

7.根据权利要求5所述文件分类系统，其特征在于，所述预处理模块具体包括：

第一去除单元，用于将采集到的文本去除非主要文本，其中，所述非主要文本包括非文本数据和/或干扰数据项；

分词单元，用于将经过预处理的文本进行分词处理，得到词语序列。

8.根据权利要求5-7任一项所述文件分类系统，其特征在于，所述添加模块具体包括：

第二去除单元，用于去除所述词语序列中的停用词；

计算单元，用于计算当前的词语序列中每个特征词的TF和IDF，所述TF为所述特征词在当前文本中的词频，IDF为包含所述特征词的文本数的倒数；

确定单元，用于将所述TF与所述IDF的乘积作为所述特征词的TF-IDF权重；

判断单元，用于判断所述TF-IDF权重是否大于所述预设值，若是，则将所述特征词添加至语料词典中。

9.一种文件分类设备，其特征在于，包括：

存储器，用于存储文件分类程序；

处理器，用于执行所述文件分类程序时实现如权利要求1至4任一项所述文件分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文件分类程序，所述文件分类程序被处理器执行时实现如权利要求1至4任一项所述文件分类方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司，未经郑州云海信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711091476.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载