[发明专利]一种大规模类别层级文本分类方法在审

专利信息
申请号: 202110743721.1 申请日: 2021-06-30
公开(公告)号: CN113590819A 公开(公告)日: 2021-11-02
发明(设计)人: 谭军;潘嵘;毕宁;任天宇;黄嘉树 申请(专利权)人: 中山大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/126;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 刘俊
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 大规模 类别 层级 文本 分类 方法
【说明书】:

发明提供一种大规模类别层级文本分类方法,该方法将深度学习网络应用于平面分类器方法和全局分类器方法,分别对其进行分类计算,一方面在平面分类器方法上与机器学习方法对比分类性能,另一方面在深度学习方法上对比全局分类器方法在学习层级依赖信息后是否比平面分类器有着更好的表现;采用平面分类器时,与机器学习方法一致,不考虑层级结构,损失函数仅考虑训练集的经验损失函数;采用全局分类器时,将层级结构纳入考虑,损失函数中加入正则化项的惩罚;基于文本分类任务中经典的神经网络模型CNN和RNN,将注意力机制与RNN模型、CNN模型相结合,对文本的关键信息进行捕捉,有利于进一步推进政务信息化和自动化。

技术领域

本发明涉及层级文本分类领域,更具体地,涉及一种大规模类别层级文本分 类方法。

背景技术

政府采购,是指各级国家机关、事业单位和团体组织,使用财政性资金采购 依法制定的集中采购目录以内的或者采购限额标准以上的货物、工程和服务的行 为。与其他众多社会主体的采购行为相比,政府这一主体在进行采购行为时存在 着显著的差异:政府采购的资金主要来源于政府财政收入,究其根本其最终来源 是全体纳税人公众,因此具有较强公共属性,需要对纳税人负责,同时政府采购 行为具有非商业性,不以获取利润为采购目标,而是通过采购满足政务工作运转 的基本需求或向社会提供基础普惠的公共服务。因此,政府采购过程中,如何保 证采购行为的公开性和规范性一直备受政府重视。当前,信息化系统管理下虽然 为政府采购业务的管理带来了诸多便利,但仍存在着许多严峻的挑战尚待解决。 为了更好的利用政府公开采购信息,挖掘其中的价值,本发明将在层级文本分类 研究的基础上,针对政府采购数据,探究如何根据采购项目信息进行合适的采购 项目分类,以进一步推进政务信息化和自动化。

面对政务公开的趋势和大数据时代的要求,对海量的政务公开数据进行深入 分析研究并探索其价值是具有现实意义的。其中,本发明的主要目的是希望对政 府采购项目的分类情况进行探究,寻找有效的层级分类方法,以期利用过往的政 府采购项目数据给出自动分类建议,从而帮助将来的工作人员能够更高效、准确 的进行采购项目分类。根据实际背景,在政府官方网站中获取大量政府采购项目 的项目名称、品目等采购信息作为本发明研究采用的数据集,并对该数据集进行 情况分析及预处理。

在层级文本分类中,主要通过建立层级分类器对训练样本标注,层级类别结 构的每个分支结束的最末一个类别节点定义为叶子节点,其余定义为树干节点, 而本发明考虑了平面分类器、局部分类器、全局分类器的优缺点,在机器学习方 法中采用平面分类器方法作为baseline,即将所有叶子节点放在同一个平面内进 行分类。而将深度学习网络应用于平面分类器方法和全局分类器方法,分别对其 进行分类计算,一方面在平面分类器方法上与机器学习方法对比分类性能,另一 方面在深度学习方法上对比全局分类器方法在学习层级依赖信息后是否比平面 分类器有着更好的表现。王等人针对深度学习方法存在的长距离依赖问题,提出 一种将LSTM与注意力机制相结合的关系抽取方法对语料进行分类。郝等人提 出了以应用于大规模文本分类为目的的全职改进公式P-IDF来提高传统机器学习分类方法的性能。武等人针对文本分类过程中缺乏层次结构特征问题,提出了 基于层次模型和SEAN注意力机制的NMF-SMVM文本分类算法。然而这些方 法或者使用机器学习算法,或者忽略了大规模文本分类中的层次结构。

发明内容

本发明提供一种大规模类别层级文本分类方法,该方法基于文本分类任务中 经典的神经网络模型CNN和RNN,将注意力机制与RNN模型、CNN模型相结 合,对文本的关键信息进行捕捉,有利于进一步推进政务信息化和自动化。

为了达到上述技术效果,本发明的技术方案如下:

一种大规模类别层级文本分类方法,包括以下步骤:

S1:采集政府采购公示数据;

S2:利用机器学习的方式对步骤S1采集的数据进行分类;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110743721.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top