[发明专利]数据处理方法、装置和电子设备在审
| 申请号: | 202210317287.5 | 申请日: | 2022-03-28 |
| 公开(公告)号: | CN114626360A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 包祖贻;李辰;章波;张月;曹俊杰 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/103 |
| 代理公司: | 北京同钧律师事务所 16037 | 代理人: | 吴梅锡;许怀远 |
| 地址: | 310056 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 | ||
1.一种数据处理方法,其特征在于,应用于服务器,所述数据处理方法包括:
接收终端设备发送的待处理文件,所述待处理文件包括:多个第一单元格以及至少部分所述第一单元格中的第一数据,所述第一数据包括:第一数据类型和第一数据内容;
解析所述待处理文件,得到所述第一数据对应的解析数据,所述解析数据包括:所述第一数据类型对应的解析数据类型和所述第一数据内容对应的解析数据内容;
确定所述解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,所述标准文件包括:多个第二单元格和至少部分所述第二单元格中的第二数据,所述第二数据包括:所述第二数据类型;
若是,则根据所述解析数据内容和所述第二数据类型,生成目标文件,所述目标文件包括:多个第三单元格和所述第三单元格中的第二数据类型和所述解析数据内容,所述第三单元格的布局与所述第二单元格的布局相同;
向所述终端设备发送所述目标文件,以使所述终端设备显示所述目标文件供用户确认。
2.根据权利要求1所述的数据处理方法,其特征在于,所述待处理文件为图像格式,所述解析所述待处理文件,得到所述第一数据对应的解析数据,包括:
采用光学字符识别技术,确定所述待处理文件的多个目标数据,所述目标数据包括:识别文本和识别文本对应的位置信息,所述识别文本表示所述第一数据类型对应的识别结果,或所述识别文本表示所述第一数据内容对应的识别结果;
将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,所述第一匹配结果用于表示两个所述目标数据的识别文本是否为同一所述第一单元格中的解析数据类型和解析数据内容;
根据所述第一匹配结果和所述目标数据,生成所述解析数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述将两个所述目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,包括:
将所述目标数据输入所述第一匹配模型的编码器进行编码处理,得到所述目标数据对应的第一特征向量;
将所述两个目标数据对应的第一特征向量输入所述第一匹配模型的匹配子模型进行匹配处理,得到所述第一匹配结果。
4.根据权利要求3所述的数据处理方法,其特征在于,所述将所述目标数据输入所述第一匹配模型的编码器进行编码处理,得到所述目标数据对应的第一特征向量,包括:采用所述编码器执行以下步骤:
对所述目标数据的识别文本进行语义向量化处理,得到第一语义向量;
对所述第一语义向量进行编码处理,得到编码向量;
将所述识别文本对应的位置信息归一化至预设位置范围,得到目标位置信息;
对所述目标位置信息进行词向量处理,得到第一词向量;
拼接所述编码向量和所述第一词向量,得到所述目标数据对应的第一特征向量。
5.根据权利要求4所述的数据处理方法,其特征在于,若所述识别文本为数字,则所述对所述目标数据的识别文本进行语义向量化处理,得到第一语义向量,包括:
将所述目标数据的识别文本归一化为预设文本;
对所述预设文本进行语义向量化处理,得到所述第一语义向量。
6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述确定所述解析数据类型和标准文件的第二数据类型是否表示相同的数据类型,包括:
将所述解析数据和所述第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果,所述第二匹配结果用于表示所述解析数据类型和所述第二数据类型是否表示相同的数据类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210317287.5/1.html,转载请声明来源钻瓜专利网。





