[发明专利]一种使用弱监督的代码搜索意图分类方法在审
申请号: | 202110264037.5 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113095363A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 潘晓光;张娜;宋晓晨;陈亮;陈智娇 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 李小妮 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 监督 代码 搜索 意图 分类 方法 | ||
本发明涉及计算机软件领域,具体涉及一种使用弱监督的代码搜索意图分类方法,包括如下步骤:S100、生成模型管道:收集数据,使用学习函数,通过生成模型以加权方式组合,将所有的个人学习功能应用于数据,构建一个标签矩阵,输入生成模型;S200、区分模型管道:将所述步骤S100中生成模型的输出作为收集的数据的列车标签,进行预处理和特性化,训练监督机器学习和深度学习模型;S300、建立实验装置:根据所述步骤S100和所述步骤S200建立实验装置;S400、生成模型评价:评价生成模型生成训练数据标签的性能;S500、有识别力的模型评价:评估不同的判别模型对代码搜索意图检测的有效性;本发明能解决搜索查询中的代码搜索意图检测问题。
技术领域
本发明涉及计算机软件领域,具体涉及一种使用弱监督的代码搜索意图分类方法。
背景技术
搜索代码是开发人员经常执行的一项常见任务。开发者可以使用很多资源来搜索代码:网络搜索引擎、代码库、文档、在线论坛等等。代码搜索通常包含由自然语言组成的查询,并期望得到代码片段结果。基于自然语言的代码搜索已经被不同的方法所关注,比如传统的信息检索技术、深度学习和混合推荐方法。存在的一个共同点是需要足够大的由代码和相应的自然语言标签组成的数据集。
传统上,研究人员使用不同的方法来收集数据,包括使用代码片段的相关文档字符串和来自编码相关论坛(例如StackOverflow)的问题标题。然而,这些自然语言标签并不能准确地表示开发人员如何在典型的搜索引擎中执行对代码的搜索。虽然存在一些数据集,包括人工注释标签代码,这些在大小和数量上是有限的。
发明内容
基于此,本发明提出了一种基于弱监督的方法来检测c#和Java编程语言的搜索查询中的代码搜索意图模型。首先,使用弱监督框架snorkel构建生成模型,获取训练数据的标签。然后,使用这些数据来训练区分模型,以区分查询是否具有代码搜索意图。
本申请公开了以下技术方案:
本申请公开的一种使用弱监督的代码搜索意图分类方法,包括下列步骤:
S100、生成模型管道:收集数据,使用学习函数,通过生成模型以加权方式组合,将所有的个人学习功能应用于数据,构建一个标签矩阵,输入生成模型;
S200、区分模型管道:将所述步骤S100中生成模型的输出作为收集的数据的列车标签,进行预处理和特性化,训练监督机器学习和深度学习模型;
S300、建立实验装置:根据所述步骤S100和所述步骤S200建立实验装置;
S400、生成模型评价:评价生成模型生成训练数据标签的性能;
S500、有识别力的模型评价:评估不同的判别模型对代码搜索意图检测的有效性。
进一步,所述S100生成模型管道包括如下步骤:
S101、数据收集:从必应网络搜索引擎中随机抽取100万条c#和Java搜索查询,通过一个简单的基于模式匹配的关键字来识别与每种编程语言相关的查询:与c#相关的有'c#'、'c sharp'和'csharp',与java相关的有'java';应用额外的过滤器,确保所有查询都是来自美国地区的英语语言,排除包含多种编程语言的查询,比如“c#vsjava”、“javato c#converter”;
S102、学习函数:使用“弱”或“有噪声”的学习函数,通过生成模型以加权方式组合,弱监督来源通常包括外部知识库、模式、字典甚至领域特定启发式,在代码搜索意图分类的上下文中,利用软件工程子意图分类器,使用学习函数来识别表示代码示例、错误代码和异常的模式,每个学习函数充当一个二元分类器,识别代码搜索意图或非代码搜索和弃权,使用标签1表示代码搜索意图,0表示非代码搜索意图,-1表示弃权,每个学习函数的标签是在手动分析查询样本后选择的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110264037.5/2.html,转载请声明来源钻瓜专利网。