[发明专利]基于文本特征的文档分类方法、计算机设备及存储介质在审
| 申请号: | 202210300548.2 | 申请日: | 2022-03-25 |
| 公开(公告)号: | CN114863453A | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 陈健良;肖弘智 | 申请(专利权)人: | 佛山青藤信息科技有限公司 |
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/418;G06V30/19 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 曹万菊 |
| 地址: | 528000 广东省佛山市南海区桂*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文本 特征 文档 分类 方法 计算机 设备 存储 介质 | ||
1.一种基于文本特征的文档分类方法,其特征在于,包括:
S1,对文档的文本内容进行多文本特征匹配;
S2,判断是否匹配成功,若匹配成功,则记录估算分类标记并进入步骤S3,若匹配失败,则直接进入步骤S3;
S3,判断是否存在未处理的内容文本特征模板;
S4,若存在未处理的内容文本特征模板,则返回步骤S1;
S5,若不存在未处理的内容文本特征模板,则根据所述估算分类标记生成估算分类,并判断所述文档本身是否有人工分类,
若没有人工分类,则进入步骤S6,
若有人工分类,则通过所述人工分类所述对应的文本特征对所述文本内容进行匹配,并判断是否通过匹配,判断为是时,则进入步骤S6,判断为否时,则删除所述人工分类,并进入步骤S6;
S6,根据所述估算分类及人工分类的结果生成文档分类结果。
2.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,还包括:
提取同一申请单中的所有文档,每一所述申请单包括至少一个订单,每一所述订单包括至少一个文档;
将所述文档的文档分类结果与对应订单中的预设分类清单进行比对,以判断所述文档分类结果是否已覆盖所述预设分类清单;
判断为是时,表示资料齐备,稽核通过;
判断为否时,表示资料缺漏,稽核不通过,并生成警示信号。
3.如权利要求2所述的基于文本特征的文档分类方法,其特征在于,所述预设分类清单根据订单的业务场景及客户类型进行设定。
4.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,所述文档的命名格式为:磁盘数据存放根目录字段、时间字段及提交码字段。
5.如权利要求4所述的基于文本特征的文档分类方法,其特征在于,所述文档通过所述提交码字段进行绑定。
6.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,还包括对所述文档进行加密存储。
7.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,所述内容文本特征模板包括固定字段及动态字段。
8.如权利要求1所述的基于文本特征的文档分类方法,其特征在于,所述文本内容的获取方法包括:
当所述文档为电子文档时,从所述电子文档中提取文本内容;
当所述文档为纸质文档时,通过扫描方式将所述纸质文档转换为扫描文档,通过光学字符识别设备从所述扫描温度中提取文本内容。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山青藤信息科技有限公司,未经佛山青藤信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210300548.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多层可拆卸式耐污抗菌床垫
- 下一篇:一种传输多优先级数据帧的方法





