[发明专利]一种文件分类方法、装置及电子设备在审
申请号: | 201711051376.5 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107844559A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 张斌德;夏耘海;王甲樑 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 王术兰 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 分类 方法 装置 电子设备 | ||
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种文件分类方法、装置及电子设备。
背景技术
随着计算机技术的发展,越来越多的企业、组织以及政府机构等依赖于计算机处理各类事务,在这一过程中,源源不断地产生大量的电子文档。在日常工作中或是进行档案管理时,一般需要将这些电子文档分入特定的类别,但是,在数据量呈现爆炸性增长的今天,某些企业可能一天内就产生几TB的数据,对应着成千上万的电子文档,对其进行人工甄别及管理无疑效率低,而随着计算机实现的自动分类给人们带来了很大的便利,但由于文本分类具有高维性、高稀疏度等特点,文本分类的性能还不能满足人们的实际需求,还具有非常大的改进空间。
而随着电子政务的快速发展,政府网站建设的重心发生了转移,从建设初期主要为政府各个部门发各种新闻信息资源,转向了以提高政府的监管职能和服务水平为目的,应当从网站的实际工作出发,制定规范政府网站的工作制度,提升服务意识和政府网站的办事能力;加强网站与政务的合作,扩大政府网站与大众的互动交流;建立高效的投诉体系,增强监督力度。随着每天有大量的投诉和建议文本数据,所以,如何将投诉文本进行快速精确的分类是目前急需解决的问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文件分类方法、装置及电子设备,其能有效解决现有技术中无法对投诉文本分类准确性低的问题。
第一方面,本发明实施例提供了一种文件分类方法,所述方法包括:将待分类投诉文本进行分词处理,获得多个待匹配词语;将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果;根据所述匹配结果确定所述待分类投诉文本所属投诉类别;其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。
第二方面,本发明实施例提供了一种文件分类装置,所述装置包括:分词处理模块,用于将待分类投诉文本进行分词处理,获得多个待匹配词语;匹配模块,用于将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果;分类模块,用于根据所述匹配结果确定所述待分类投诉文本所属投诉类别;其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述电子设备执行以下操作:将待分类投诉文本进行分词处理,获得多个待匹配词语;将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果;根据所述匹配结果确定所述待分类投诉文本所属投诉类别;其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。
第四方面,本发明实施例提供一种可读取存储介质,其特征在于,所述可读取存储介质存储于计算机内,所述可读取存储介质包括多条指令,所述多条指令被配置成使得计算机执行如第一方面所提供的文件分类方法。
本发明实施例提供一种文件分类方法、装置及电子设备,首先通过将待分类投诉文本进行分词处理,获得多个待匹配词语,然后将多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果,其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的,然后根据匹配结果确定所述待分类投诉文本所属投诉类别,以对上述待分类投诉文本进行分类,本方法中通过预先训练获得的多个词典,使得可以将多个待匹配词语与词典匹配,从而可以获得更加准确的匹配结果,可将待分类投诉文本进行准确分类,实现了针对不同投诉问题的投诉文本有较高的分类精度,提高了文本分类的性能。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例中的电子设备的结构框图;
图2为本发明第一实施例提供的一种文件分类方法的流程图;
图3为本发明第二实施例提供的一种文件分类装置的结构框图;
图4为本发明第二实施例提供的一种匹配模块的结构框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711051376.5/2.html,转载请声明来源钻瓜专利网。