[发明专利]一种基于隐式特征的过程挖掘方法及系统在审
申请号: | 201710067896.9 | 申请日: | 2017-02-07 |
公开(公告)号: | CN106897396A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 代飞;林雷蕾;陶大鹏;莫启;王炜 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/06 |
代理公司: | 北京卓唐知识产权代理有限公司11541 | 代理人: | 龚洁 |
地址: | 650000 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 过程 挖掘 方法 系统 | ||
技术领域
本发明涉及业务过程建模技术领域,特别涉及一种基于隐式特征的过程挖掘方法及系统,能够从局部完备性日志中挖掘出短循环。
背景技术
近年来,社会经济的发展,物联网、云计算等新兴技术革命的出现,使得信息系统不仅仅是围绕处理业务数据为中心,更多时候与它们所支持的运作流程越来越紧密。同时,业务流程的操作使得信息系统记录了数量众多的事件,如何有效的从这些日志事件中挖掘有价值的信息是企业实现新型商务智能的一个重要基础。
过程挖掘是实现上述内容的一种主流方法。目前,过程挖掘主要包括三个阶段:过程发现、符合性检查和过程改进。而从过程日志中发现过程模型是过程挖掘的关键技术。因为,只有从日志中发现过程模型,才能进行后面符合性检查和过程改进的阶段研究。但从日志中不一定能准确发现两个任务是并发关系还是短循环关系,进而影响模型的准确性。故而,对过程模型中短循环的发现已成为了业务过程建模领域的处理难题和研究特点。虽然近年来已有文献提出了对短循环进行挖掘的技术方法,但大多采用人为假定方式。目前,针对长度为2的短循环结构挖掘方式是人为的假定日志轨迹中一定存在固定的行为模式“aba”,这种特征称之为显式特征,可以直接从日志中观察到。但是,现实情况是存在过程模型包含2-度循环结构(由任务a和任务b组成),日志文件中却不存在类似“aba”的显式特征。因此,有必要研究提出一种基于隐式特征从局部完备性日志中挖掘短循环的方法。
发明内容
本发明要解决的技术问题是,提供一种基于隐式特征从局部完备性日志中挖掘短循环的方法。
解决上述技术问题,本发明提供了一种基于隐式特征的过程挖掘方法,包括如下步骤:
输入原始日志进行日志过滤得到新日志,
寻找在所述新日志中的隐式特征,将所述隐式特征中的2-度循环与并发结构进行区分,
通过任务间的紧邻度来划分同类的所述2-度循环,并根据过程挖掘算法进行挖掘得到带有2-度循环的Petri网模型。
更进一步,所述日志过滤至少包括:求解基本关系、向量求解以及日志轨迹编辑的步骤,
所述求解基本关系的步骤,用以根据原始日志文件中任务的紧邻关系求出所有任务之间的关系;
所述向量求解的步骤,用以根据所有任务之间的关系找到形成2-度循环的变体结构的任务;
所述日志轨迹编辑的步骤,用以将放在同一集合的所有任务转为同一个任务,同时修改所有日志轨迹。
更进一步,将所述隐式特征中的2-度循环与并发结构进行区分时进一步包括如下条件:
每个任务b前面都出现过一个任务a,且任务a的位置不一样;
如果,每个任务b前面都出现过一个任务a,且任务b和任务a一样多;
如果,任务b出现了,则日志轨迹中任务a的出现次数比任务b的出现次数多;
如果,仅出现任务a;
若满足上述条件时,则任务a与任务b构成2-度循环;
若在日志中任务a既可在任务b的前面,任务b也可在任务a的前面,则任务a和任务b构成并发结构。
由隐式特征分析器实现,从全局角度对日志中每条轨迹进行计算,如果任务a与任务b是并发关系,则扫描轨迹是否满足以下情况:1)如果b出现了,则轨迹中a的出现次数要比b多;2)每个b前面都出现过一个a,且a的位置不一样;3)如果只出现a,也认为是满足的;所有规则都满足上面3个要求,则任务a与任务b可以构成2-度循环,如果要求1改为a与b出现一样多,则满足要求1和2的a与b也可以构成2-度循环。
更进一步,通过任务间的紧邻度来划分同类的所述2-度循环按照步骤进行:
4-1)如果日志中出现一次任务b紧邻任务a后面,紧邻度的值为1,则总紧邻度值FD加1;
4-2)如果日志中出现一次a执行后,隔着另外一个任务再执行b,则总紧邻度值FD加0.5;
4-3)按照上面过程类推,每隔一个任务,紧邻度的值就降一半,再加到总紧邻度的值上。
由紧邻度计算器实现,具体公式如下所示,其中变量m是在每条轨迹中,b出现的次数,n是轨迹的数量,t是任务b与任务a的距离,β是稀释因子,默认β=0.5;其计算过程内容就是:1)如果日志中出现一次任务b紧邻任务a后面,紧邻度的值为1,则总紧邻度值FD加1;2)如果日志中出现一次a执行后,隔着另外一个任务再执行b,则总紧邻度值FD加0.5;3)按照上面过程类推,每隔一个任务,紧邻度的值就降一半,再加到总紧邻度的值上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710067896.9/2.html,转载请声明来源钻瓜专利网。