[发明专利]基于机器学习的电子文档分析系统及方法有效
申请号: | 201810236000.X | 申请日: | 2018-03-21 |
公开(公告)号: | CN108334501B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 王欣;杨煜清;施举红 | 申请(专利权)人: | 王欣;杨煜清;施举红 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G16H50/70 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 武媛;吕学文 |
地址: | 100005 北京市东城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 电子 文档 分析 系统 方法 | ||
1.基于机器学习的电子文档分析方法,其特征在于,所述分析方法包括以下步骤:
步骤一:电子文档分析者通过用户管理模块进入分析系统,并利用文档提交模块提交待分析的电子文档,机器学习算法模块提取电子文档的文字和图像信息进行存储,同时记录文字和图像的位置对应关系;
步骤二:利用文档特征描述模块对所提交的电子文档结构和待提取的目标信息进行特征描述,若用于描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,然后再进行结构解析;
步骤三,机器学习算法模块依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对文档内容特征描述或机器学习算法提取的信息进行修改,机器学习算法模块对修改的特征对应的模型重新进行训练;
步骤四:分析结果审核模块将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,电子文档分析者查阅目标信息在每个电子文档中的上下文和预测结果,对预测结果进行纠正和备注;
所述步骤三中模型训练和信息提取包括以下步骤:
1)比较目标信息的文档内容特征和分析系统中存储的所有文档内容特征之间的相似性,并记录相似性大于某一阈值的文档内容特征;
2)对目标信息对应的内容特征模型训练,由相似的内容特征对应的模型组成加权集成模型,或综合当前任务的训练数据和其他任务内容特征的训练数据,构建数据迁移模型;
3)利用训练完毕的内容特征模型预测电子文档中目标信息;
所述步骤三中对提取的信息进行修改中:
若分析者修改内容特征描述,则机器学习算法模块对修改对应的特征的加权集成模型和数据迁移模型重新进行训练;
若分析者通过分析结果审核模块修改机器学习算法模块提取的目标信息,则机器学习算法模块对修改对应的特征的数据迁移模型重新进行训练;
所述步骤2)中,构建数据迁移模型包括:
201)基于内容特征的“前缀”,定位内容特征对应的目标信息所处“单元”;
202)基于内容特征“主体”的“词语集”中的词语,在“单元”中定位目标信息可能的上下文,该上下文是句子的集合;
203)基于内容特征“主体”的“句法集”,在“单元”中定位目标信息可能的上下文;
204)综合202)和203)得到的上下文集合,得到目标特征的训练上下文集;
205)根据内容特征的“类型”,结合模型的预测或用户的审核,赋予每个上下文“标记”;
206)通过迁移学习方法对构建的目标特征和内容特征数据集进行数据迁移模型训练。
2.根据权利要求1所述的基于机器学习的电子文档分析方法,其特征在于,所述步骤一中还包括,电子文档分析者通过任务管理模块邀请他人参与任务协作进行电子文档分析。
3.根据权利要求1所述的基于机器学习的电子文档分析方法,其特征在于,所述分析方法还包括通过分析结果清洗模块对电子文档分析者提取每个电子文档的目标信息进行合并、归类及对重复值、缺失值处理并生成处理表格,然后通过分析结果统计模块对分析结果进行频率计算、交叉表、相关性统计分析和展示,剖析电子文档分析结果形成结论。
4.基于机器学习的电子文档分析系统,基于权利要求1至3任一项的分析方法,其特征在于,所述分析系统包括:
用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;
任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;
文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;
文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;
机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;
分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王欣;杨煜清;施举红,未经王欣;杨煜清;施举红许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810236000.X/1.html,转载请声明来源钻瓜专利网。