[发明专利]一种基于语义分析的档案分类方法及系统有效
申请号: | 202110536990.0 | 申请日: | 2021-05-18 |
公开(公告)号: | CN112966682B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 宋永生;银思琪;顾凌峰;常祖贤;刘杰;徐杰;张宇 | 申请(专利权)人: | 江苏联著实业股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06F40/216;G06F40/30 |
代理公司: | 无锡苏元专利代理事务所(普通合伙) 32471 | 代理人: | 王清伟 |
地址: | 210006 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 档案 分类 方法 系统 | ||
本发明公开了一种基于语义分析的档案分类方法及系统,获得第一接收档案;根据第一格式识别指令对第一接收档案进行格式识别,获得第一格式识别结果;根据第一格式转换指令进行格式转换,获得第二接收档案,将其输入第一格式语义库,获得第一格式语义分析结果;构建第一语义知识库模型,获得第一语义解析结果;将第一语义解析结果输入第一鉴定条件库,获得第一档案标签分类排行结果;将第一语义解析结果输入第二鉴定条件库,获得第一档案保密分类结果;根据第一档案标签分类排行结果和第一档案保密分类结果进行分类,解决了现有技术中进行智能化档案分类过程中,存在因关键词过滤的准确率低,误判率高,导致档案分类不够智能准确的技术问题。
技术领域
本发明涉及档案分类相关领域,尤其涉及一种基于语义分析的档案分类方法及系统。
背景技术
档案分类就是依据一定的标准,按照档案来源、时间、内容和形式特征的异同点,对档案进行有层次的区分,参照国家档案馆划控与开放鉴定的原则和馆藏到开放期档案的划控鉴定实际情况,制定基于语义分析的档案馆开放鉴定条件解析规范,并据此创立档案馆馆藏到开放期档案划控鉴定的语义分析知识库。当前,运用数字化手段实施档案馆档案划控开放鉴定的主流做法是,利用光学字符识别(OCR)技术将单层PDF文件或图片文件中的文字识别出来,或通过格式转换技术将双层PDF或OFD文件转换为纯文本文件,然后利用全文检索技术实现对文本档案的关键词过滤。这种技术手段虽然可以快速发现并过滤掉一批继续控制使用的档案,大大降低档案开放鉴定的时间成本和人力成本,提高档案鉴定的效率,但是,其存在着误判率高和准确率低的缺陷。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中进行智能化档案分类过程中,存在因关键词过滤的准确率低,误判率高,导致档案分类不够智能准确的技术问题。
发明内容
本申请实施例通过提供一种基于语义分析的档案分类方法及系统,解决了现有技术中进行智能化档案分类过程中,存在因关键词过滤的准确率低,误判率高,导致档案分类不够智能准确的技术问题,达到对档案进行智能化语义分析,使得对档案的表述内容读取更加准确,进而实现对档案的智能、准确分类的技术效果。
鉴于上述问题,提出了本申请实施例提供一种基于语义分析的档案分类方法及系统。
第一方面,本申请提供了一种基于语义分析的档案分类方法,所述方法应用于一档案分类系统,所述系统与第一数据接收装置通信连接,所述方法包括:通过所述第一数据接收装置获得第一接收档案;获得第一格式识别指令,根据所述第一格式识别指令对所述第一接收档案进行格式识别,获得第一格式识别结果;获得第一格式转换指令,根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换,获得第二接收档案,其中,所述第二接收档案为纯文本档案;将所述第二接收档案输入第一格式语义库,获得第一格式语义分析结果;构建第一语义知识库模型,其中,所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型;获得第一语义解析指令,根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型,获得第一语义解析结果;将所述第一语义解析结果输入第一鉴定条件库,获得第一档案标签分类排行结果;将所述第一语义解析结果输入第二鉴定条件库,获得第一档案保密分类结果;根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏联著实业股份有限公司,未经江苏联著实业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110536990.0/2.html,转载请声明来源钻瓜专利网。