[发明专利]一种基于摘要方式的机器辅助阅读审计方法及系统在审
申请号: | 201810142416.5 | 申请日: | 2018-02-11 |
公开(公告)号: | CN110162765A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 韩中华;姜伟;徐福海;吴雪军 | 申请(专利权)人: | 鼎复数据科技(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 范国锋;刘冬梅 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 审计 抽取 功能区块 机器辅助 类别标签 摘要方式 摘要内容 审阅 解析 分类内容 机器模型 审计成本 数据内容 文本内容 原文内容 原文信息 阅读 录入 标注 原文 文本 修正 输出 合并 分类 帮助 | ||
本发明公开了一种基于摘要方式的机器辅助阅读审计方法及系统,其实现过程为:录入文本,并完成数据内容及格式的解析;对解析后文本内容进行分类,将相同分类内容进行聚合并标注类别标签,形成带类别标签的功能区块;抽取各功能区块中相应的摘要内容;输出摘要内容,结合审阅人员的意见,形成审阅结果。通过机器模型,预先抽取原文摘要,并辅助以摘要的原文信息,可以有效帮助用户快速的通过摘要完成审计工作;即便自动摘要描述不清或抽取不对,也可以通过对应的原文内容进行快速修正,极大地节省了人工审计成本,提升审计效率。
技术领域
本发明涉及文档处理领域,具体涉及一种基于摘要方式的机器辅助阅读审计方法及系统。
背景技术
各个行业中存在大量文档阅读审计的需求,传统的文档阅读审计方法是以人为主的文档阅读审计方法,主要处理过程包括:将待审计的文档从业务信息系统导出后通过业务行业专家用人脑进行主观审查。对于海量的数据,阅读量巨大,需要根据文档内容进行理解、判断、进行决策。由于文档中大量都是无结构化或半结构化的数据,且写文档的人水平思路又不尽相同,造成人在审阅过程中所有内容都需要进行理解查看,而实际需要重点关注的内容其实并不多,时间成本和人力成本浪费严重,且效率低下。
随着信息技术近年以来的大力发展,各种信息数据的获得和提供频率更加快速,这在一定程度上又加重了专业审计的复杂性和难度,仅靠传统的文本审计方法已经远远不能适应社会的发展,不能满足企业自身的实际需求了。目前在审计行业中,还没有成熟的审阅解决方案。
基于上述问题,亟需开发一种机器辅助阅读审计方法或系统,准确了解文档的重要内容,为审计人员提供简要、准确、重要的文档内容,提高审计人员工作效率。
发明内容
为了克服上述问题,本发明人进行了锐意研究,提供了一种基于摘要方式的机器辅助阅读审计方法及系统,通过对输入的文档进行分块分类调整类别标签、摘要抽取获得重点关注信息、以及最后的编辑修改,获得用户想要的数据效果,实现审计文档摘要输出,从而完成本发明。
本发明的目的在于提供以下技术方案:
(1)一种基于摘要方式的机器辅助阅读审计方法,所述方法包括以下步骤:
步骤100,录入文本,并完成数据内容及格式的解析;
步骤200,对解析后文本内容进行分类,将相同分类内容进行聚合并标注类别标签,形成带类别标签的功能区块;
步骤300,抽取各功能区块中相应的摘要内容;
步骤400,输出摘要内容,结合审阅人员的意见,形成审阅结果。
(2)一种用于实现上述(1)所述方法的系统,所述系统包括:
录入解析模块,用于录入文本,并完成数据内容及格式的解析;
分块分类模块,用于对解析后文本内容进行分类,将相同分类内容进行聚合并标注类别标签,形成带类别标签的功能区块;
摘要抽取模块,用于抽取各功能区块中相应的摘要内容;
摘要输出编辑模块,用于输出摘要内容,结合审阅人员的意见,形成审阅结果。
根据本发明提供的一种基于摘要方式的机器辅助阅读审计方法及系统,具有以下有益效果:
(1)本发明中,通过机器模型,预先抽取原文摘要,并辅助以摘要的原文信息,帮助用户快速的通过摘要完成审计工作;即便自动摘要描述不清或抽取不对,也可以通过对应的原文内容进行快速修正,极大地节省了人工审计成本,提升审计效率;
(2)本发明中,通过将Word文档或PDF文档格式先转化为XML格式,再转化为纯文本格式,可保证原始数据不丢失,保证解析质量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810142416.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子文档的拆分方法、装置、设备及介质
- 下一篇:词向量更新方法和装置