[发明专利]面向新型供电城轨列车大数据运维的NL生成SQL方法有效
申请号: | 201910934900.6 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110688394B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 陈刚;刘晋;潘硕;李辉;曹金超;吴晓凡;江大伟;陈珂 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/2452 | 分类号: | G06F16/2452;G06F16/22;G06F16/2455;G06F16/2458;G06F16/28 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向新型供电城轨列车大数据运维的NL生成SQL方法。从新型供电城轨列车上收集运行时产生的多种数据,整理成各自的结构化数据,存入关系型数据库的多个数据表中;使用预训练模型对自然语言和数据库的表名及列名进行编码,获得两种编码;构建符合语法结构的语法解析树模板,对语法解析树模板中需要填充的部分进行训练和预测;将待查询的自然语言输入深度学习模型获得数据库中需查询的表名信息,生成完整数据库查询语句,执行该数据库查询语句获取所需查询的数据。本发明根据自然语言问句自动产生数据库查询语句,提升了运维数据的工作效率,在不同场景下涉及的数据库多表查询操作时能准确地返回所需查询的数据。 | ||
搜索关键词: | 面向 新型 供电 列车 数据 nl 生成 sql 方法 | ||
【主权项】:
1.一种面向新型供电城轨列车大数据运维的NL生成SQL方法,其特征在于:该方法的步骤如下:/n(1)从新型供电城轨列车上收集运行时产生的多种数据,均通过整理后形成各自的结构化数据,将结构化数据存入关系型数据库的多个数据表中;/n(2)使用预训练模型对自然语言和数据库的表名及列名进行编码,获得两种编码,作为后续深度学习模型的输入;/n步骤(2)中,具体使用预训练模型对查询时所需使用的自然语言和数据库模式编码为向量:预训练模型为一个预先已经训练好的用于编码的神经网络,对数据库模式的编码是将数据库模式中数据表的每个列名与其所在表名一起进行编码作为第一种编码,对自然语言的编码是对自然语言编码后再分别结合不同数据表的不同列名利用注意力机制进行编码作为第二种编码;/n(3)构建符合语法结构的语法解析树模板,使用深度学习分类模型对语法解析树模板中需要填充的部分进行训练和预测;/n步骤(3)中,具体根据数据库查询语句的语法结构,构建出符合语法结构的语法解析树模板,语法解析树模板由固定部分和不固定部分组成,固定部分为数据库查询语句的关键词,不固定部分为数据库模式中的表名、列名,其中的不固定部分作为空白部分,对语法解析树模板的不固定部分采用深度学习分类模型训练后进行填充:训练阶段,以与数据库查询语句对应的数据库模式中的每个列名及其表名作为一个标签,将所有各个标签结合各自对应的两种编码的所有编码一起输入深度学习分类模型进行训练;预测阶段,将需处理的两种编码的各自一个组成的两个编码输入到训练后的深度学习分类模型,预测输出不固定部分的数据库模式中的表名、列名进行填充;/n(4)语句生成阶段,将待查询的自然语言输入深度学习模型获得数据库中需查询的表名信息,接着根据数据库模式生成完整数据库查询语句,执行该数据库查询语句获取所需查询的数据。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910934900.6/,转载请声明来源钻瓜专利网。