[发明专利]一种过程挖掘领域中自动补全不完整业务事件日志的方法在审
申请号: | 201910331822.0 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110046136A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 徐九韵;刘杰;张超;孙忠顺 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/2458;G06Q10/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于过程挖掘领域,具体是一种将现代信息系统产生的不完整事件日志自动补全的方法,保证发现的过程模型的精确性。主要分为四个步骤:A.生成两种类型的配置文件;B.对FTF进行聚类算法;C.将缺失的轨迹匹配到对应的子日志中;D.补全轨迹中缺失的活动。E.挖掘子过程模型。本发明针对过程挖掘领域首次将欧式距离与日志中轨迹数量结合来确定相似度结果,确保缺失的轨迹与日志具有更高的相似度。 | ||
搜索关键词: | 日志 挖掘 现代信息系统 相似度结果 过程模型 聚类算法 欧式距离 配置文件 事件日志 业务事件 全轨迹 相似度 子过程 匹配 保证 发现 | ||
【主权项】:
1.一种过程挖掘领域中自动补全不完整事件日志方法主要包括以下四个步骤:A.生成两种类型的配置文件:通过扫描事件日志,将完整的轨迹和不完整的轨迹进行分离,分别组合成完整的事件日志与不完整的事件日志。将这两种类型的日志分别生成对应的配置文件,即完整轨迹配置文件(FTF)和不完整轨迹配置文件(FTF)。B.对FTF进行聚类算法:利用自组织映射算法(一种无监督学习算法)对完整的轨迹日志进行聚类,将这些轨迹分离成几组不同的子日志。这里,每一个子日志之间保持着较大不相似而子日志内的轨迹有高度相似性的特征。C.将缺失的轨迹匹配到对应的子日志中:在计算缺失轨迹与子日志的相似度时,首先计算每一个子日志的平均轨迹向量,具体的计算方法为:
其中,|Ci|表示第i个子日志中轨迹的个数,tvi表示该子日志中第i个轨迹向量。然后计算缺失轨迹与子日志之间的欧式距离,具体的计算方法为:
其中,MT表示缺失轨迹的配置文件,MTij表示第i个缺失轨迹的配置文件中第j个向量的值。最后,如果ED之间的差值小于某个预先设定的阈值,则由下面的公式来确定最终的相似度:
D.补全轨迹中缺失的活动:找出轨迹中缺失活动的直接前继活动#activity·与直接后继活动#·activity,之后在缺失轨迹所对应的子日中统计#activity·的直接后继活动集合S1与#·activity的直接前继活动集合S2。根据对S1与S2交集结果的分析得出缺失的活动,具体的方法为:1.如果S1与S2的交集不为空,则交集中数量最多的活动被确定为缺失的活动。2.如果S1与S2的交集为空但S1与S2不为空,则两个集合中数量最多的活动被确认为缺失的活动。3.否则,丢弃此缺失轨迹,即不允许该轨迹出现在子日志中。E.挖掘子过程模型:将最终得到的完整子日志应用于过程挖掘算法从而获得对应的子过程模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910331822.0/,转载请声明来源钻瓜专利网。