[发明专利]自适应文档理解在审
申请号: | 202210942276.6 | 申请日: | 2022-08-08 |
公开(公告)号: | CN115730032A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 后藤拓矢;长谷川彻;刘湘宁;小野麻子 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈金林 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 文档 理解 | ||
提供了一种方法、系统和程序从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群的方法。所述方法、系统和程序产品基于所述多个页面集群与对应于所述多个机器学习模型的多个训练集群之间的所述特征空间中的关系,将多个机器学习模型中的一个分配给所述多个页面集群中的每一个。该方法、系统、以及程序产品识别多个页面集群中的与多个非结构化页面中的所选择的一个对应的页面,并且使用分配给所识别的页面集群的多个机器学习模型中的所选择的一个将所选择的非结构化页面转换成结构化页面。
背景技术
机器学习算法基于样本数据(被称为训练数据)来构建机器学习模型,以在没有被明确编程的情况下做出预测或决定。训练机器学习模型的过程涉及向机器学习算法提供从其学习的训练数据,并且从训练过程创建的工件(artifact created)是机器学习模型。训练数据包括被称为目标或目标属性的正确答案,并且机器学习算法在训练数据中找到将输入数据属性映射到目标属性的模式,并且输出捕捉该模式的机器学习模型。
结构化数据指驻留在文件或记录内的固定字段中并因此易于分析的数据。非结构化数据(或非结构化信息)是不具有预定义数据模型或不以预定义方式组织的信息。非结构化信息通常是文本密集型的,但可包括诸如日期、数字等的数据。此外,非结构化数据通常具有不规则性和歧义,传统程序难以解释该不规则性和歧义。
智能文档理解(SDU)方法通过机器学习将非结构化文档转换成结构化数据。在SDU中,用户在从输入文档提取的训练文档上输入注释,并且使用文档作为教学图像来训练模型。然而,目前SDU系统所发现的挑战是页格式在页与各种文章之间通常不同。一些页面可以是2列格式,其他页面可以包括图形图像,而其他页面可以是传统的基于段落的字母。
照此,使用单个机器学习模型来覆盖不同页面格式是困难的,并且导致转换准确度的降低。此外,现有的SDU训练方法具有对于训练机器学习模型(例如,随机采样)有效的最小量的训练数据提取。照此,可以选择偏向于特定格式的文档,这也导致机器学习模型的转换准确度的降低。
发明内容
根据本公开的一个实施例,提供一种方法,其中方法、系统和程序从对应于多个非结构化页面的多重特征向量在特征空间中创建多个集群。该方法、系统和程序产品基于多重页面集群和与多重机器学习模型对应的多个训练集群之间的特征空间中的关系,向多重集群中的每一个分配多重机器学习模型中的一个。该方法、系统、以及程序产品识别多个页面集群中与多个非结构化页面中的所选择的一个对应的页面,并且使用分配给所识别的页面集群的多个机器学习模型中的所选择的一个将所选择的非结构化页面转换成结构化页面。在该实施方式中,该方法、系统、以及程序产品通过从多个机器学习模型中自适应地选择最佳拟合机器学习模型以将非结构化数据转换成结构化数据来提高数据转换的准确性。
根据本公开的另一实施例,提供了一种方法、系统和程序产品将非结构化文档分成多个非结构化页面。该方法、系统和程序产品选择多个非结构化页面中的一个,并在所选择的非结构化页面中定义一组字符区域和对应的一组位置。该方法、系统、以及程序产品基于字符区域的对应位置组和在其对应字符区域内的内容组,计算与该组字符区域对应的字符区域特征向量集。在该实施方式中,该方法、系统、以及程序产品基于内容类型和在页面内的定位,计算每个非结构化页面的多个微调特征向量。
根据本公开的另一实施方式,提供了一种方法、系统和程序产品基于字符区域特征向量集计算所选择的非结构化页面的多个特征向量中所选择的一个,并将所选择的特征向量映射到特征空间。在该实施方式中,方法、系统和程序产品将特定非结构化页面的多个特征向量组合为最佳描述非结构化页面中的内容类型和内容定位的微调的单个页面特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210942276.6/2.html,转载请声明来源钻瓜专利网。