[发明专利]一种基于注意力机制的异构数据模式匹配方法有效

专利信息
申请号: 202110240555.3 申请日: 2021-03-04
公开(公告)号: CN112965968B 公开(公告)日: 2023-10-24
发明(设计)人: 佘兢克;王月佳;蒋一帆;张斌 申请(专利权)人: 湖南大学
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2458;G06N3/0499
代理公司: 长沙永星专利商标事务所(普通合伙) 43001 代理人: 周咏;米中业
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 机制 数据 模式 匹配 方法
【权利要求书】:

1.一种基于注意力机制的异构数据模式匹配方法,包括如下步骤:

S1.获取目的数据和待匹配数据,并进行预处理;

S2.根据建立的新数据指标体系进行特征提取;

S3.训练基于注意力机制的模式匹配模型;

S4.建立源模式和待匹配模式中元素的语义映射关系,并进行模式匹配。

2.根据权利要求1所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S1的预处理过程包括去噪和分类;所述的去噪具体包括,统计数据列中空属性的比率,删除数据列中空属性比率高于预设阈值的属性;对于缺失数据,连续变量使用统计值填补,统计值包括平均值和中位数;分类变量不进行填补或用众数填补;对于异常数据采用分箱图进行判断并清除;所述的分类具体包括对去噪后的数据按照数据类型进行分类,数据类型包括数值型、字符型和稀有类型。

3.根据权利要求2所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S2的新数据指标体系采用注意力机制建立,具体为选取注意力概率排列顺序高于预设排序的特征新建数据指标体系,注意力通过如下公式计算:

a=fφ(x)

其中x为输入数据,fφ为注意力网络,a是取值在0到1之间的多维注意力向量。

4.根据权利要求3所述的基于注意力机制的异构数据模式匹配方法,其特征在于新建数据指标体系,具体包括按照数值型和字符型两种数据指标体系;其中,数值型数据指标体系的特征包括最大值、最小值、小数位数、标准差和平均值;字符型数据指标体系的特征包括数据类型长度、最大值、是否允许为空、数字字符比率和平均值,字符型数据指标体系中的最大值和平均值为实际字符串长度的最大值和平均值;稀有类型转换为数值型数据,并采用数值型指标体系进行描述,特征信息V=[value1,value2,…,valuen],将神经网络的输入信息的指标量化为数值,并通过转换函数将量化的数值信息转换到区间[0,1],其中转换函数为:

f(length)=2*(1/(1+k-length)-0.5),其中k=1.01

若f(length)<0,则f(length)=0,其中length为量化的数值信息。

5.根据权利要求4所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S3具体为在神经网络中引入注意力机制算法构建模式匹配模型,模式匹配模型包括输入层、注意力模块、第一全连接层、第二全连接层和输出层;初始化权值,设置模型训练参数、优化器和损失函数;将步骤S2提取的特征信息发送到输入层;注意力模块采用注意力机制算法;通过第一全连接层、第二全连接层和输出层对得到的注意力数值进行训练,具体为进行相似度匹配,将得到的注意力数值通过正向传播得到输出层误差,反向传播不断调整神经网络的权值和设定阈值,直至神经网络收敛。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110240555.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top