[发明专利]基于机器学习的电子文档分析系统及方法有效
申请号: | 201810236000.X | 申请日: | 2018-03-21 |
公开(公告)号: | CN108334501B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 王欣;杨煜清;施举红 | 申请(专利权)人: | 王欣;杨煜清;施举红 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G16H50/70 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 武媛;吕学文 |
地址: | 100005 北京市东城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 电子 文档 分析 系统 方法 | ||
本发明公开一种基于机器学习的电子文档分析系统及方法,利用文档特征描述模块对所提交的电子文档结构进行描述,若描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,再进行结构解析;机器学习算法模块依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对内容特征描述或机器学习算法提取的目标信息进行修改,机器学习算法模块将对修改内容特征对应的模型重新进行训练;分析结果审核模块将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者。本发明有效解决机器学习算法文档数量有限和特征动态变化情况下的学习问题,能够让算法真正辅助文档分析,提升分析效率。
技术领域
本发明涉及计算机信息分析技术领域,具体涉及一种基于机器学习的电子文档分析系统及方法。
背景技术
电子文档是由文字或文字和图表组成的信息资料,例如电子病历、影像报告和法律文书等。现有的电子文档分析技术多为文档结构化技术。以医学领域的电子病历结构化技术为例,病历结构化多是利用固定的规则和模板,结合机器学习算法,一次性提取病历中尽可能多的信息;然后进行存储和索引,建立类似搜索引擎的应用,方便医生检索和查询。这种结构化技术在从文档提取信息时,存在准确率低、工作量大、灵活性差和与实际分析流程脱节的问题。由于人类文字表达方式多样化的特点,人工定义的规则和模板很难涵盖一种信息所有的表达方式,利用规则或模板提取的信息难免存在遗漏或错误,若单纯依赖计算机算法进行分析,模型训练和信息提取准确率无法保证。
为了保证数据分析的准确性,需要提供病历结构化服务的一方投入大量人力进行模板规则完善和错误纠正,而且在类似医学研究等对数据质量要求很高的场景,接受服务的一方也无法避免投入人力进行审核和查漏。这样无形中增加了文档模型训练和信息提取的人力成本。对于电子文档信息特点动态变化的分析,用户所需信息会因分析目的不同而千差万别,而且在分析过程中,所需信息也会随着分析的深入发生动态改变;固定的规则和模板是不能将所有信息描述和收集完整的,无法满足用户个性化的需求,缺乏灵活性。单纯依靠文档结构化技术,不结合用户分析文档的整个流程进行优化,是无法真正改善文档分析用户的工作环境和提升文档分析效率的。以病历结构化和医生进行科研为例,现有的病历结构化及搜索引擎服务,多是由独立于医院的公司提供,和医生科研的过程是分离的。为了建立搜索引擎服务,公司投入大量人力去进行信息核对,纠正计算机算法的错误;医生为了提取个性化的文档信息,也需要投入时间和精力进行病历阅读。由于这种模型训练和信息提取服务未和医生科研深度结合,导致其无法及时更新病历中医生所需的动态的文档信息,同时也耗费了多余的人力在信息核对上,未体现出文档结构化技术的优势。
文档结构化技术通常首先定义固定的规则,建立模板或知识库,对文档的段落结构和句子/段落中的语义信息进行固定的描述。这类规则、模板或知识库多是文档结构化技术提供方自行构建,文档分析用户只能看到解析的结果,而无法根据自己的需求自定义规则、模板或知识库。目前尚未有针对用户设计的,供用户使用的文档特征描述语言,来便捷、灵活的进行文档段落结构和语义信息的描述。以病历结构化和医生科研为例,由于不同背景的医生在所需信息的理解和描述上有差别,很多信息描述无法在选定研究题目之前给定;而且对于医生想要的信息还会随着医生对问题的理解加深而发生变化,这些都是固有的规则和知识库无法表达的。
用户提取的文档信息,多是词汇、数字、概念或是对是否满足特定描述的判定。在文档结构化的过程中,为了提取上述信息,通常会用到机器学习算法建立模型进行模型训练和信息提取。目前的技术有传统的贝叶斯模型和深度学习模型两大类。这两类模型在实际文档分析过程中,均易受到文档数量有限和用户所需特征多变的影响,降低准确率和实用性。为了使模型达到较高的准确率,通常需要对固定的特征,标注大量文档进行模型训练;但是实际过程中多数用户的电子文档都是分批次提供,每次数量有限,针对单个用户的数据,很难进行复杂模型的训练。以病历结构化和医生科研为例,每位医生的课题都会针对特定类型的病历,病历数量难以确定;而且医生需要的信息也会随着课题不同或者研究的深入发生变化,单独针对一位医生的课题,难以提前训练模型进行文档模型训练和信息提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王欣;杨煜清;施举红,未经王欣;杨煜清;施举红许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810236000.X/2.html,转载请声明来源钻瓜专利网。