[发明专利]一种用于审计业务的文本自动分类方法在审
申请号: | 202110797260.6 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113360658A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 郑略省;卢伟龙;赵维伟;史泽斌 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06F40/289;G06K9/62 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 李晓芬 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 审计 业务 文本 自动 分类 方法 | ||
本发明公开了一种用于审计业务的文本自动分类方法,属于审计技术领域,包括以下步骤:S1、获取针对目标分类的相关文档集合,S2、将语料库分成训练集和测试集,S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重。本发明中,能够对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类,能够节省大量的人工,实现了文本自动分类,可用于支撑审计结果文档自动标签分类管理,不需要构建完全不同的分类系统,无需重复工作,具备可推广性。
技术领域
本发明涉及审计技术领域,具体为一种用于审计业务的文本自动分类方法。
背景技术
近年来,随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展,逐渐改变着人们的生活和工作,给审计监督带来了机遇和挑战,内部审计工作正面临着审计信息化的深刻变革。
在审计信息化过程中,需要对文本进行分类,国外自动分类研究始于1950年代末,H.P.Luhn在这一领域进行了开创性的研究,1962年博科(H.Borko)等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究,国内自动分类研究起步较晚,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况,但是传统的“知识工程”方法(或者称为“规则法”),是指由专业人员为每个类别定义大量的推理规则,如果一篇文档能满足某个推理规则,则可以判定为该文档属于对应的类别,知识工程方法有比较明显的缺点,包括:分类的质量依赖于规则的好坏,而规则需要大量的专业人员进行规则的制定,人工投入大且质量不稳定;不同的领域需要构建完全不同的分类系统,重复工作较多,不具备可推广,因此亟需一种具有良好的实际表现的用于审计业务的文本自动分类方法。
发明内容
本发明提供的发明目的在于提供一种用于审计业务的文本自动分类方法,能够对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类,能够节省大量的人工,不需要构建完全不同的分类系统,无需重复工作,具备可推广性。
为了实现上述效果,本发明提供如下技术方案:一种用于审计业务的文本自动分类方法,包括以下步骤:
S1、获取针对目标分类的相关文档集合。
S2、将语料库分成训练集和测试集。
S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重。
S4、基于完成特征化的文档向量,构建不同的分类模型。
S5、构建的最优分类模型在生产系统中部署,并调用分类模型的接口对新增的文档进行评估。
进一步的,根据S1中的操作步骤,所述相关文档集合是指属于相关类别的典型文档的集合。
进一步的,根据S2中的操作步骤,所述语料库包括分类和文档集。
进一步的,根据S2中的操作步骤,所述训练集和测试集的结构与语料库完全相同,文档数量按照80%和20%的比例分给训练集和测试集。
进一步的,根据S3中的操作步骤,包括以下步骤:
S301、特征选择:将“词”选择为文档的特征。
S302、特征表示:把经过特征选择后的文档内容用数学的“向量”进行表示。
S303、特征优化:采用期望交叉熵法调整特征向量中各值的权重。
进一步的,根据S301中的操作步骤,将文档表示为一系列词,并将停用词剔除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797260.6/2.html,转载请声明来源钻瓜专利网。