[发明专利]基于文本特征的文档分类方法、计算机设备及存储介质在审

专利信息
申请号: 202210300548.2 申请日: 2022-03-25
公开(公告)号: CN114863453A 公开(公告)日: 2022-08-05
发明(设计)人: 陈健良;肖弘智 申请(专利权)人: 佛山青藤信息科技有限公司
主分类号: G06V30/413 分类号: G06V30/413;G06V30/418;G06V30/19
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 曹万菊
地址: 528000 广东省佛山市南海区桂*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文本 特征 文档 分类 方法 计算机 设备 存储 介质
【权利要求书】:

1.一种基于文本特征的文档分类方法,其特征在于,包括:

S1,对文档的文本内容进行多文本特征匹配;

S2,判断是否匹配成功,若匹配成功,则记录估算分类标记并进入步骤S3,若匹配失败,则直接进入步骤S3;

S3,判断是否存在未处理的内容文本特征模板;

S4,若存在未处理的内容文本特征模板,则返回步骤S1;

S5,若不存在未处理的内容文本特征模板,则根据所述估算分类标记生成估算分类,并判断所述文档本身是否有人工分类,

若没有人工分类,则进入步骤S6,

若有人工分类,则通过所述人工分类所述对应的文本特征对所述文本内容进行匹配,并判断是否通过匹配,判断为是时,则进入步骤S6,判断为否时,则删除所述人工分类,并进入步骤S6;

S6,根据所述估算分类及人工分类的结果生成文档分类结果。

2.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,还包括:

提取同一申请单中的所有文档,每一所述申请单包括至少一个订单,每一所述订单包括至少一个文档;

将所述文档的文档分类结果与对应订单中的预设分类清单进行比对,以判断所述文档分类结果是否已覆盖所述预设分类清单;

判断为是时,表示资料齐备,稽核通过;

判断为否时,表示资料缺漏,稽核不通过,并生成警示信号。

3.如权利要求2所述的基于文本特征的文档分类方法,其特征在于,所述预设分类清单根据订单的业务场景及客户类型进行设定。

4.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,所述文档的命名格式为:磁盘数据存放根目录字段、时间字段及提交码字段。

5.如权利要求4所述的基于文本特征的文档分类方法,其特征在于,所述文档通过所述提交码字段进行绑定。

6.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,还包括对所述文档进行加密存储。

7.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,所述内容文本特征模板包括固定字段及动态字段。

8.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,所述文本内容的获取方法包括:

当所述文档为电子文档时,从所述电子文档中提取文本内容;

当所述文档为纸质文档时,通过扫描方式将所述纸质文档转换为扫描文档,通过光学字符识别设备从所述扫描温度中提取文本内容。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山青藤信息科技有限公司,未经佛山青藤信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210300548.2/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top