[发明专利]增强数据预处理过程的自动化软件可追踪性恢复方法在审
申请号: | 202110626138.2 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113378907A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 陈静;张贺;董黎明;匡宏宇;荣国平;邵栋 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京明杰知识产权代理事务所(普通合伙) 32464 | 代理人: | 张文杰 |
地址: | 210093 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增强 数据 预处理 过程 自动化 软件 追踪 恢复 方法 | ||
本发明公开了增强数据预处理过程的自动化软件可追踪性恢复方法,包括:选取待恢复追踪关系的制品,抽取制品相关字段进行数据清洗并开展特征工程,获取样本数据集;利用标签标记方法,将样本数据集划分为标记数据集与缺失追踪数据集;利用四折时间序列验证方法,将标记数据集切分为标记训练集与测试集;利用半监督不平衡学习框架,组合标记训练集与缺失追踪数据集,生成新的训练集;利用多种重采样方式,均衡训练集,训练二分类模型,评估其性能,恢复制品间的追踪关系;从增强数据预处理过程出发,通过多种增强措施应对项目制品多、数据质量差、样本数据不平衡等问题,在F1值、精确率、召回率上均有大幅度提升。
技术领域
本发明涉及计算机技术技术领域,具体为增强数据预处理过程的自动化软件可追踪性恢复方法。
背景技术
软件可追踪性是将任何唯一可识别的软件制品与其他制品相关联,维护并使用生成的网络回答有关软件产品及其开发过程问题的能力。软件可追踪性技术致力于创建或维护不同制品间的追踪关系,有助于提升面向过程的数据质量。然而,软件可追踪性是一项困难且容易出错的任务。主要困难来自于如何填补自然语言编写的需求与用编程语言编写的代码之间逻辑抽象的鸿沟。同时,面对庞大的制品数量与制品间潜在追踪关系数量,手动恢复制品间追踪关系将关系所需的成本和工作量非常高。除此之外,在实践中可追踪性数据的质量问题也加大了软件可追踪性的难度,例如缺失、冗余、模棱两可的追踪路径,失败的追踪关系等。因此,如何自动化地恢复软件制品间的追踪关系成为了研究的热点;目前,学术界在自动化软件可追踪性恢复相关领域已经有了大量成果,但这些方法多集中在开源项目中,并没有在工业界场景中得到广泛应用。面对企业项目存在巨大的制品数量和制品间潜在追踪关系,二分类模型中的正负标签标记策略带来的数据样本不平衡问题会愈发严重,同时,企业中针对如何有效地维护制品间的追踪关系没有长期稳定的策略而采取临时措施,以上问题都使得开源项目的自动化可追踪性恢复方法无法直接应用于企业项目中。
基于以上问题,亟于提出增强数据预处理过程的自动化软件可追踪性恢复方法,该方法通过四项增强数据预处理措施,即标签标记方法、四折时间序列验证方法、半监督不平衡学习框架、多种重采样方法,降低了样本数据集的噪声,并可有效地缓解企业项目中严重的样本数据不平衡问题,同时提高了二分类模型的鲁棒性和泛化能力;该方法相比于开源项目的自动化软件可追踪性恢复方法构建的模型,在精确率、召回率和F1值上均有显著提升。
发明内容
本发明的目的在于提供增强数据预处理过程的自动化软件可追踪性恢复方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:增强数据预处理过程的自动化软件可追踪性恢复方法,方法包括以下步骤:
S100:确定待恢复追踪关系的软件制品A和软件制品B,从软件仓库中抽取软件制品A和软件制品B的相关字段,对相关字段进行数据清洗,数据清洗方式包括异常值处理、缺失值处理、一致化处理;
S200:对进行数据清洗后的相关数据进行候选链接对匹配,并开展特征工程进行标签标记,得到样本数据集;
S300:基于步骤S200中的标签标记情况,将样本数据集划分为标记数据集和缺失追踪数据集;
S400:基于四折时间序列验证方法,将步骤S300中得到的标记数据集切分为标记数据训练集和标记数据测试集;
S500:将步骤S400得到的标记数据训练集和步骤S300得到的缺失追踪数据集进行结合生成新训练集;
S600:基于半监督不平衡学习框架,利用步骤S500结合生成的新训练集得到一个最终的二分类模型Cfinal;
S700:基于重采样方法,对步骤S500中的新训练集进行重采样,得到重采样训练集;
S800:将步骤700中的重采样训练集对步骤S600得到的二分类模型Cfinal进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110626138.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置