[发明专利]一种从SVN日志事件流中动态实时挖掘软件过程活动的方法有效

专利信息
申请号: 201810855718.7 申请日: 2018-07-31
公开(公告)号: CN109062763B 公开(公告)日: 2022-03-04
发明(设计)人: 朱锐;戴翼超;李彤;原佳怡 申请(专利权)人: 云南大学
主分类号: G06F11/30 分类号: G06F11/30;G06K9/62
代理公司: 昆明金科智诚知识产权代理事务所(普通合伙) 53216 代理人: 胡亚兰
地址: 650091 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 svn 日志 事件 动态 实时 挖掘 软件 过程 活动 方法
【权利要求书】:

1.一种从SVN日志事件流中动态实时挖掘软件过程活动的方法,其特征在于,所述从SVN日志事件流中动态实时挖掘软件过程活动的方法采用从软件过程日志文档中提取每个事件的路径和行为两条属性内容,以自然语言形式表示的属性内容结构化处理对软件过程日志进行预处理;

预处理具体包含去除噪点、提取词干和词性筛选;将得到的结构化的数据作为语料库进行训练,完成对数据基于语义特征的向量化;再依据向量化的数据的距离对数据进行聚类,采用差分二次求导确定最佳聚类数;最后将得到的聚类结果作为训练样本构造分类器,完成事件对活动类别的映射;

所述预处理具体包括:在已知当前的单词的前提下预测该单词的上下文信息;输入当前单词w对应的词向量,恒等投影当前单词w对应的词向量,以单词所在语料库的词频作为权值构造二叉树,叶子节点对应词汇表中单词;叶子节点数为N,非叶子节点数为N-1,对于样本(w,context(w)),它的上下文单词w’=w时,标签设置为1,否则标签设置为0;将词汇表中的词向量、输出的非叶子节点对应的辅助向量作为训练参数;最后输出叶子节点对应词向量以及非叶子节点对应辅助向量;

通过Word2Vec方法获得的具有蕴含在事件信息中的语义特征的词向量进行K-Means聚类,获得的类别标签将作为活动分类器的训练数据集;采用K-Means聚类算法对日志活动进行聚类具体包括:

首先,随机地指定k条结构化日志文本信息的特征向量作为k个质心的初始向量坐标;

然后,从结构化日志信息集M={M1,M2,…,Mn}中抽取短文本Mi的序号,向量表示对;选择距离质心最近的质心;最后输出所属聚类质心序号,Mi的向量表示;M为软件开发过程中的信息Message;M1,M2,…,Mn为软件开发过程中的n个带分类的Message;

利用二次求导的方式进行最佳k值选取。

2.如权利要求1所述的从SVN日志事件流中动态实时挖掘软件过程活动的方法,其特征在于,将得到的聚类类别作为训练类别样本再进行朴素贝叶斯分类操作,完成事件对活动类别的映射;分类是分类准备阶段、分类训练阶段、分类应用阶段和最后的分类评估阶段,采用k-交叉验证的方法对测试准确率与召回率进行计算与分析,以评估分类结果;X={M1,M2……Mn}是一个软件开发过程中的n个待分类Message信息,满足相互独立的关系;C={Y1,Y2……Yn}为一个软件开发过程中的类别集合;确定映射规则Y=f(M),使得任意Mi∈X有且仅有一个Yi∈C,使得Yi∈f(Mi)成立;f为分类器;训练数据集为T={(M1,Y1),(M2,Y2)……(Mt,Yt)},T是训练数据集,t是选取做为训练集的数据量。

3.如权利要求2所述的从SVN日志事件流中动态实时挖掘软件过程活动的方法,其特征在于,进一步包括:

分类器准备阶段,确定特征属性,且对一部分的待分类数据人工进行标注;输入为待分类数据,输出为特征属性和训练样本数据;

分类器训练阶段,频率计算,计算类别在训练样本数据中出现的频率和特征属性划分对每个类别的条件概率估计;输入为特征属性、训练样本数据,输出为分类器;

分类器应用阶段,使用分类器对待分类数据进行分类;输入为分类器和待分类项,输出为待分类项与类别的映射关系;

分类器评估阶段,输入为原始标注的测试集数据、测试集数据对应的聚类标注标签、测试集数据对应的分类器映射标签,输出评价指标;对比分类器分类结果与原始聚类标注结果,计算各个类别分类指标的准确率P、召回率R以及调和平均值F-measure:

P=A/B

R=A/C

F-measure=(α2+1)*P*R/α2*(P+R)

其中,A=提取出的正确信息条数,B=提取出的信息条数,C=样本中的信息条数,α为调和参数值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810855718.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top