[发明专利]自适应文档理解在审
| 申请号: | 202210942276.6 | 申请日: | 2022-08-08 |
| 公开(公告)号: | CN115730032A | 公开(公告)日: | 2023-03-03 |
| 发明(设计)人: | 后藤拓矢;长谷川彻;刘湘宁;小野麻子 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06N20/00 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈金林 |
| 地址: | 美国纽*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自适应 文档 理解 | ||
1.一种计算机实现的方法,包括:
从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群;
基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训练集群之间的关系,将多个机器学习模型之一分配给所述多个页面集群中的每一个;
识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集群;以及
使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一个,将所选择的非结构化页面转换成结构化页面。
2.根据权利要求1所述的方法,进一步包括:
将多个非结构化文档划分成所述多个非结构化页面;
选择所述多个非结构化页面中的一个;
在所选择的非结构化页面中定义字符区域集合和对应的位置集合;以及
基于字符区域的对应位置集和在其对应字符区域内的内容集,计算对应于字符区域集的字符区域特征向量集。
3.根据权利要求2所述的方法,进一步包括:
基于所述字符区域特征向量集计算所述所选择的非结构化页面的所述多个特征向量中的所选择的一个;以及
将所选择的特征向量映射到所述特征空间。
4.根据权利要求3所述的方法,进一步包括:
对所选择的特征向量执行层级聚类,其中,所述层级聚类进一步包括:
识别在特征空间中与所选择的特征向量最接近的对应于所述多个页面集群的多个页面集群中心中的一个;以及
将所选择的特征向量添加到对应于所识别的页面集群中心的多个页面集群中的所识别的一个。
5.根据权利要求1所述的方法,进一步包括:
基于所述多个页面集群计算多个页面集群中心;
基于所述多个训练集群计算多个训练集群中心;
选择所述多个页面集群中心中的一个;
识别所述特征空间中最接近所选择的页面集群中心的所述多个训练集群中心中的一个;以及
将所述多个机器学习模型中与所识别的训练中心集群对应的一个机器学习模型分配给与所选择的页面集群中心对应的页面集群。
6.根据权利要求1所述的方法,进一步包括:
识别对应于所述多个非结构化页面中的不同页面的所述多个页面集群中的不同页面集群;以及
使用分配给所述不同页面集群的所述多个机器学习模型中的不同机器学习模型,将所述不同的非结构化页面转换成不同的结构化页面。
7.根据权利要求1所述的方法,进一步包括:
使用对应于所识别的页面集群的所述多个非结构化文档的一部分来训练所选择的机器学习模型;
使用经训练的机器学习模型来执行所述转换;以及
将经训练的机器学习模型添加到所述多个机器学习模型。
8.根据权利要求1所述的方法,其中,所述多个非结构化页面包括多个非结构化页面类型,并且其中,所述多个非结构化页面类型中的每一个被分配所述多个机器学习模型中的一个,以执行所述转换。
9.一种信息处理系统,包括:
一个或多个处理器;
存储器,所述存储器耦合到所述处理器中的至少一个;
计算机程序指令集,所述计算机程序指令集被存储在所述存储器中并且由所述处理器中的至少一个处理器执行以便执行以下动作:
从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群;
基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训练集群之间的关系,将多个机器学习模型之一分配给所述多个页面集群中的每一个;
识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集群;以及
使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一个,将所选择的非结构化页面转换成结构化页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210942276.6/1.html,转载请声明来源钻瓜专利网。





