[发明专利]用于从结构化文档提取数据的方法和设备在审
| 申请号: | 202111658801.3 | 申请日: | 2021-12-31 |
| 公开(公告)号: | CN114356924A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 凌悦 | 申请(专利权)人: | 胜斗士(上海)科技技术发展有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 魏子翔;于静 |
| 地址: | 200120 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 结构 文档 提取 数据 方法 设备 | ||
1.一种用于从结构化文档提取数据的方法,包括:
获取所述结构化文档的文本数据集合,其中所述文本数据集合包括多个文本数据;
确定所述文本数据的序列标注数据;
基于所述序列标注数据确定所述文本数据的第一数据字段类型,其中所述第一数据字段类型与所述文本数据所具有的在所述文本数据集合中的位置相邻或相近的文本特征相关联;
确定所述文本数据的第二数据字段类型,其中所述第二数据字段类型与所述文本数据所具有的在所述文本数据集合中的位置远离的文本特征相关联;以及
基于所述第一字段类型和所述第二字段类型从所述文本数据集合中提取与预设的数据字段类型对应的文本数据。
2.根据权利要求1所述的方法,其特征在于,位置相邻或相近包括如下位置关系中的至少一个:
至少两个文本特征位于相同的词组或语句内;
至少两个文本特征分别位于相邻的词组或语句中的不同词组或语句内,并且所述至少两个文本特征相邻。
3.根据权利要求1所述的方法,其特征在于,位置远离包括如下位置关系中的至少一个:
至少两个文本特征分别位于相邻的词组或语句中的不同词组或语句内,并且所述至少两个文本特征不相邻;
至少两个文本特征分别位于不相邻的词组或语句中的不同词组或语句内。
4.根据权利要求1所述的方法,其特征在于,获取所述结构化文档的文本数据集合进一步包括:
对所述结构化文档进行数字化处理以获取所述文本数据集合。
5.根据权利要求4所述的方法,其特征在于,所述数字化处理包括OCR。
6.根据权利要求1-5中任一项所述的方法,其特征在于,还包括对所述文本数据集合进行预处理,所述预处理至少包括如下至少一项:
对所述文本数据集合中的长文本数据进行分割;
将字符类型的文本数据转化为编码类型的文本数据。
7.根据权利要求1-5中任一项所述的方法,其特征在于,确定所述文本数据的序列标注数据进一步包括:
提取所述文本数据的所述文本特征;
确定所述文本特征在对应的文本数据中的序列标签。
8.根据权利要求7所述的方法,其特征在于,进一步包括基于所述文本特征在所述文本数据集合中的位置确定所述序列标签。
9.根据权利要求7所述的方法,其特征在于,所述序列标签为BIO标签。
10.根据权利要求7所述的方法,其特征在于,基于所述序列标注数据确定所述文本数据的第一数据字段类型进一步包括:
基于所述序列标注数据对所述文本数据进行第一特征提取以获得第一特征数据并且确定所述文本数据的所述第一数据字段类型。
11.根据权利要求10所述的方法,其特征在于,基于所述序列标注数据对所述文本数据进行第一特征提取以获得第一特征数据并且确定所述文本数据的所述第一数据字段类型进一步包括:
基于所述第一特征数据进行附加特征提取以获得附加第一特征数据并且确定所述文本数据的所述第一数据字段类型。
12.根据权利要求10所述的方法,其特征在于,确定所述文本数据的第二数据字段类型进一步包括:
基于所述第一特征数据进行第二特征提取以确定所述文本数据的所述第二数据字段类型。
13.根据权利要求11所述的方法,其特征在于,确定所述文本数据的第二数据字段类型进一步包括:
基于所述附加特征数据进行第二特征提取以确定所述文本数据的所述第二数据字段类型。
14.根据权利要求12或13所述的方法,其特征在于,位置远离的所述文本特征属于不同的文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胜斗士(上海)科技技术发展有限公司,未经胜斗士(上海)科技技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111658801.3/1.html,转载请声明来源钻瓜专利网。





