[发明专利]一种基于注意力机制的异构数据模式匹配方法有效
申请号: | 202110240555.3 | 申请日: | 2021-03-04 |
公开(公告)号: | CN112965968B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 佘兢克;王月佳;蒋一帆;张斌 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06N3/0499 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 数据 模式 匹配 方法 | ||
1.一种基于注意力机制的异构数据模式匹配方法,包括如下步骤:
S1.获取目的数据和待匹配数据,并进行预处理;
S2.根据建立的新数据指标体系进行特征提取;
S3.训练基于注意力机制的模式匹配模型;
S4.建立源模式和待匹配模式中元素的语义映射关系,并进行模式匹配。
2.根据权利要求1所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S1的预处理过程包括去噪和分类;所述的去噪具体包括,统计数据列中空属性的比率,删除数据列中空属性比率高于预设阈值的属性;对于缺失数据,连续变量使用统计值填补,统计值包括平均值和中位数;分类变量不进行填补或用众数填补;对于异常数据采用分箱图进行判断并清除;所述的分类具体包括对去噪后的数据按照数据类型进行分类,数据类型包括数值型、字符型和稀有类型。
3.根据权利要求2所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S2的新数据指标体系采用注意力机制建立,具体为选取注意力概率排列顺序高于预设排序的特征新建数据指标体系,注意力通过如下公式计算:
a=fφ(x)
其中x为输入数据,fφ为注意力网络,a是取值在0到1之间的多维注意力向量。
4.根据权利要求3所述的基于注意力机制的异构数据模式匹配方法,其特征在于新建数据指标体系,具体包括按照数值型和字符型两种数据指标体系;其中,数值型数据指标体系的特征包括最大值、最小值、小数位数、标准差和平均值;字符型数据指标体系的特征包括数据类型长度、最大值、是否允许为空、数字字符比率和平均值,字符型数据指标体系中的最大值和平均值为实际字符串长度的最大值和平均值;稀有类型转换为数值型数据,并采用数值型指标体系进行描述,特征信息V=[value1,value2,…,valuen],将神经网络的输入信息的指标量化为数值,并通过转换函数将量化的数值信息转换到区间[0,1],其中转换函数为:
f(length)=2*(1/(1+k-length)-0.5),其中k=1.01
若f(length)<0,则f(length)=0,其中length为量化的数值信息。
5.根据权利要求4所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S3具体为在神经网络中引入注意力机制算法构建模式匹配模型,模式匹配模型包括输入层、注意力模块、第一全连接层、第二全连接层和输出层;初始化权值,设置模型训练参数、优化器和损失函数;将步骤S2提取的特征信息发送到输入层;注意力模块采用注意力机制算法;通过第一全连接层、第二全连接层和输出层对得到的注意力数值进行训练,具体为进行相似度匹配,将得到的注意力数值通过正向传播得到输出层误差,反向传播不断调整神经网络的权值和设定阈值,直至神经网络收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110240555.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置