[发明专利]一种可信图数据节点分类方法、系统、计算机设备及应用在审
申请号: | 202110028476.6 | 申请日: | 2021-01-11 |
公开(公告)号: | CN112733937A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 肖阳;邢卓林;裴庆祺;杨舟 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 李霞 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 可信 数据 节点 分类 方法 系统 计算机 设备 应用 | ||
本发明属于深度学习应用之网络分析技术领域,公开了一种可信图数据节点分类方法、系统、计算机设备及应用,所述可信图数据节点分类方法包括以下步骤:1)输入拓扑图和节点特征,计算散拓扑图的离散里奇曲率;2)对曲率和节点特征进行预处理;3)对曲率进行映射,对原始特征进行重构,在包含对抗样本的图数据上进行半监督训练;4)对没有标记的节点进行分类。本发明利用离散曲率提取拓扑信息,使用残差网络重构节点特征向量,无需了解对抗样本的具体技术细节,无需大量的对抗样本进行对抗性训练,能够有效抵抗图数据上对抗样本的攻击,且在不含对抗样本的数据上也超过了现有主流模型的准确率,是一种可信的节点分类系统。
技术领域
本发明属于深度学习应用之网络分析技术领域,尤其涉及一种可信图数据节点分类方法、系统、计算机设备及应用。
背景技术
目前:随着计算机硬件设备的进步和计算能力的爆炸式发展,深度学习和神经网络技术也不断实现突破,而GNN(GraphNeuralNetwork,图神经网络) 的出现将深度学习和神经网络引入了图这种非欧式数据分析中,研究者们基于图信号处理中对频谱的定义,使用图拉普拉斯算子解决了CNN (ConvolutionalNeuralNetwork,卷积神经网络)从图片文本领域移植到图数据领域时,局部卷积算子和汇聚算子难以定义的问题。自此GNN飞速发展,在科研和工业应用上都取得了令人瞩目的成果。
但是,深度学习在图片和文本领域面临的对抗样本攻击的安全性问题,在图数据领域同样不可避免。以应用最广泛的GCN(GraphNeuralNetwork)为例,通过在拓扑图中添加或删除一些边,造成微小扰动,就能够是分类系统性能出现大幅下降。比如使用mettack对抗样本生成模型在原始图书数据中添加5%的扰动,就能够导致GCN的分类准确率下降13%以上。而其他的对抗样本技术,比如nettack这种有目标攻击,则是通过对目标节点添加扰动,让模型对指定节点产生错误判别。对抗样本的存在,严重阻碍了GNN在一些对安全性和稳定性要求较高的领域应用,比如在银行的信用预测系统中,一些信用度低的人可以通过添加一些信用度高的好友来伪装自己,在推荐系统中,一些垃圾邮件发送者可能创建虚假关注者以增加虚假新闻的影响范围。
目前对于图数据对抗样本的防御研究或者可信图神经网络系统的研究仍处于起步阶段,现有技术方案如下:现有技术一,利用节点的特征相似度,对输入的图数据拓扑进行清洗。通过去除相似度低的节点之间的边,构建新的拓扑结构,随后输入到已有的GNN模型进行训练和预测。现有技术二,采用奇异值分解的方式提取拓扑信息,利用对抗样本的高阶特性,使用低阶奇异值对分类结果进行低阶近似,以避开对抗样本的攻击。现有技术三,使用注意力机制和概率论模型,将高斯分布表示GNN的隐藏层节点特征,依靠注意力机制为邻居节点分配权重。现有技术四,利用天然图数据的低阶性和稀疏特性,在堆拓扑结构进行训练,学习出一个新的拓扑代替原有受到攻击的拓扑。现有技术五,利用大量的对抗样本对模型进行对抗训练。
综上所述,现有技术存在的问题如下:1)现有的数据清洗技术(现有技术一、现有技术四),利用节点特征相似度或者图数据的低阶特性,导致两个问题:首先对于某些只含拓扑结构的图数据分析任务,基于节点特征相似度的分类系统完全不可用。其次利用图数据的低阶特性对含有对抗样本进行清洗的同时可能会引入新的干扰,造成对数据的二次污染,使得模型在较低干扰率下的性能得不到保障。2)现有的可信图数据分类系统和对抗训练技术(现有技术二、现有技术四、现有技术五),需要事先了解对抗样本的技术细节,或者需要生成大量的对抗样本进行有针对性的进行鲁棒性提升,由于对抗样本生成算法复杂度高,其在数据构建阶段会浪费大量时间,其次这种有针对的提升不能很好地抵抗未知干扰。3)现有技术三,在这种利用概率论模型的方案中,GNN对于高比例的对抗样本攻击产生了一定的抵抗效果,但是在干扰率较低的环境下,分类系统的性能不稳定,甚至低于最基本的GNN分类系统。
通过上述分析,现有技术存在的问题及缺陷为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110028476.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置