[发明专利]单领域至跨领域数据集数据处理方法及装置在审
申请号: | 202111019785.3 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113760962A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中国人民银行清算总中心 |
主分类号: | G06F16/2452 | 分类号: | G06F16/2452;G06F16/215;G06F16/25;G06F16/21 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 党晓林;周永君 |
地址: | 100048 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 数据 集数 处理 方法 装置 | ||
本申请实施例提供一种单领域至跨领域数据集数据处理方法及装置,方法包括:根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集;本申请能够高效、准确得进行单领域数据集转换为跨领域数据集。
技术领域
本申请涉及数据处理领域,具体涉及一种单领域至跨领域数据集数据处理方法及装置。
背景技术
自然语言处理是人工智能领域中的一颗明珠。其中,NL2SQL是自然语言处理的具体任务。为了将自然语言转换成结构化查询语言,一方面可以对自然语言进行编码,进而提升NL2SQL的准确率。目前,比较主流的编码模型是由Devlin等人于2018年推出的BERT。BERT旨在通过对上下文进行条件预处理,从未标记的文本中预训练深层双向表示。结果表明,仅需一个额外的输出层就可以对经过预训练的BERT模型进行微调,以创建适用于各种任务(例如问题解答和语言推理)的最新模型,而无需进行大量特定任务架构修改。
2019年,Liu等人通过融合知识图谱(Knowledge Graph),开发出了新的编码模型K-BERT。该模型将三元组作为领域知识注入到句子中。但是,过多的知识整合可能会转移句子的正确含义,称为知识噪音问题。为了减少知识噪音,K-BERT引入了软位置和可见矩阵来限制知识的影响。K-BERT可以通过配备知识图谱轻松地将领域知识注入模型中,而无需自行进行预训练,从而能够从预训练的BERT中加载模型参数。
数据增强能有效提高NL2SQL的命中率。2020年,Yu等人提出GRAPPA模型,给定新表或数据库,GRAPPA可以同时生成伪自然问题和相应的SQL查询。它首先对生成规则进行采样,然后将树形结构中的非终端节点替换为相应的终端节点之一。例如,对于SQL查询和自然语言语句,它可以将非终端AGG分别映射为MAX和“maximum”。
发明人发现,虽然GRAPPA模型能够生成大量的自然问题和相应的SQL查询,但生成的数据并不是Spider数据集格式,自然问题和SQL查询数据区别于Spider训练集(TrainSet)中的数据。
Shi等人提出GAP模型,包含两个不同的子模型,即SQL-to-Text生成模型和Table-to-Text生成模型,用于处理两个不同的输入。具体来说,SQL到文本的生成模型将SQL作为输入并生成说明查询意图的话语。另一个模型是表到文本生成模型,它基于一组采样的列名和表中的单元格值来生成语句。这样,该模型可以生成与表相关的话语,而无需编写不相关的自然语句。
发明人发现,GAP模型生成的数据同样不是Spider数据集格式且生成的数据是为了预训练BERT之类的编码模型。在效用上,GAP模型生成的数据不同于Spider训练集中的数据。
发明内容
针对现有技术中的问题,本申请提供一种单领域至跨领域数据集数据处理方法及装置,能够高效、准确得进行单领域数据集转换为跨领域数据集。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种单领域至跨领域数据集数据处理方法,包括:
根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;
根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
进一步地,所述根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民银行清算总中心,未经中国人民银行清算总中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111019785.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置