[发明专利]代码表示的生成方法和装置、存储介质及电子设备在审
申请号: | 202310949796.4 | 申请日: | 2023-07-31 |
公开(公告)号: | CN116661805A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 石志林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06N3/0464;G06N3/088 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 代码 表示 生成 方法 装置 存储 介质 电子设备 | ||
本申请公开了一种代码表示的生成方法和装置、存储介质及电子设备。其中,该方法包括:获取待生成向量表示的初始代码,对初始代码执行代码解析操作,得到目标语法树,使用预训练的目标编码器对目标语法树执行编码操作,得到目标代码表征向量,目标代码表征向量用于以向量形式表示初始代码,目标编码器是利用一组样本语法树对初始编码器进行无监督训练得到的编码器,无监督训练的过程包括将目标样本语法树输入初始编码器,由初始编码器输出目标子树是否属于目标样本语法树的概率,并根据概率以及目标标签对初始编码器进行训练,本申请可以应用于基于人工智能的大数据领域等。本申请解决了相关技术中代码表示向量的生成效率的技术问题。
技术领域
本申请涉及计算机领域,具体而言,涉及一种代码表示的生成方法和装置、存储介质及电子设备。
背景技术
目前现有技术中,对于给定的代码片段,一般通过使用代码表示模型来获得代码对应的向量表示,而获取向量表示的模型一般采用有监督训练或半监督训练,训练数据一般需要人工标注部分或全部的样本代码,导致代码表示模型的训练效率较低,样本代码的标注成本较高,进而,使得代码表示向量的生成效率难以保证的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种代码表示的生成方法和装置、存储介质及电子设备,以至少解决相关技术中代码表示向量的生成效率的技术问题。
根据本申请实施例的一个方面,提供了一种代码表示的生成方法,包括:获取待生成向量表示的初始代码;对所述初始代码执行代码解析操作,得到目标语法树,其中,所述目标语法树用于以树状的形式表示所述初始代码的语法结构;使用预训练的目标编码器对所述目标语法树执行编码操作,得到目标代码表征向量,其中,所述目标代码表征向量用于以向量形式表示所述初始代码,所述目标编码器是利用一组样本语法树对初始编码器进行无监督训练得到的编码器,所述无监督训练的过程包括将目标样本语法树输入所述初始编码器,由所述初始编码器输出目标子树是否属于所述目标样本语法树的概率,并根据所述概率以及目标标签对所述初始编码器进行训练,所述一组样本语法树包括所述目标样本语法树,所述目标子树来自于对所述一组样本语法树进行识别所得到的一组子树,所述目标标签用于表示所述目标子树是否为所述目标样本语法树中识别到的子树。
根据本申请实施例的另一方面,还提供了一种代码表示的生成装置,包括:获取模块,用于获取待生成向量表示的初始代码;转换模块,用于对所述初始代码执行代码解析操作,得到目标语法树,其中,所述目标语法树用于以树状的形式表示所述初始代码的语法结构;编码模块,用于使用预训练的目标编码器对所述目标语法树执行编码操作,得到目标代码表征向量,其中,所述目标代码表征向量用于以向量形式表示所述初始代码,所述目标编码器是利用一组样本语法树对初始编码器进行无监督训练得到的编码器,所述无监督训练的过程包括将目标样本语法树输入所述初始编码器,由所述初始编码器输出目标子树是否属于所述目标样本语法树的概率,并根据所述概率以及目标标签对所述初始编码器进行训练,所述一组样本语法树包括所述目标样本语法树,所述目标子树来自于对所述一组样本语法树进行识别所得到的一组子树,所述目标标签用于表示所述目标子树是否为所述目标样本语法树中识别到的子树。
在一个示例性的实施例中,所述装置还用于:获取一组样本代码;对所述一组样本代码分别执行所述代码解析操作,得到所述一组样本语法树;对所述一组样本语法树分别执行自动识别操作,得到所述一组子树,并生成一组样本标签,其中,所述一组子树与所述一组样本标签一一对应,所述样本标签用于指示对应的子树所属的样本语法树;利用所述初始编码器确定一组样本表征向量和一组子树表征向量,其中,所述一组样本表征向量与所述一组样本语法树一一对应,所述一组子树表征向量与所述一组子树一一对应;根据所述一组样本表征向量和所述一组子树表征向量确定多组样本概率,其中,一组样本概率与一个所述样本表征向量对应;根据所述一组样本标签和所述多组样本概率训练所述初始编码器,直到所述初始编码器对应的损失函数满足预设损失条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310949796.4/2.html,转载请声明来源钻瓜专利网。