[发明专利]基于关键词特征的电子文档自动分类方法及系统有效
申请号: | 201810017865.7 | 申请日: | 2018-01-09 |
公开(公告)号: | CN107992633B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 蔡宇翔;叶勇;苏运东;付婷;肖琦敏;潘丹;张航;倪时龙;苏江文;刘心 | 申请(专利权)人: | 国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N20/10 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350003 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于关键词特征的电子文档自动分类方法及系统,该方法提出通过构建企业的领域词汇表,采用企业级搜索引擎对分类语料库进行逐个词汇搜索,计算词汇与文档的相关度,将所有文档特征化为相关度最大的前100个关键词的相关度组成的特征向量,基于训练集文档的特征向量利用不同的机器学习算法构建分类器,利用测试集文档对构建的分类器进行评估,最终选择最优的分类器进行部署应用,调用最优分类器的接口对新增的文档进行自动分类。本发明结合企业电子文档特点,采用关键词为特征,能够显著减少生成的特征向量中的无关信息,大大减少了特征向量的维度,提升了特征抽取阶段对文档重要语义的保留,提升了企业电子文档的自动分类效果。 | ||
搜索关键词: | 基于 关键词 特征 电子 文档 自动 分类 方法 系统 | ||
【主权项】:
一种基于关键词特征的电子文档自动分类方法,其特征在于,包括:步骤S1:准备分类语料库即企业电子文档目标分类体系和对应类别的文档集合,将语料库分成训练集和测试集;步骤S2:构建企业的领域词汇表;步骤S3:采用企业级搜索引擎,将领域词汇表中的词汇作为搜索词,对整个语料库进行逐个搜索词搜索;步骤S4:将与文档相关度最高的前100个词汇作为文档的关键词;步骤S5:所有文档特征化为由100个关键词的相关度组成的特征向量;步骤S6:基于训练集文档的特征向量利用不同的机器学习算法构建分类器;步骤S7:利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器;步骤S8:将最优的分类器在生产系统中部署,调用最优分类器的接口对新增的文档进行自动分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司,未经国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810017865.7/,转载请声明来源钻瓜专利网。