[发明专利]基于残差的深度学习方法及神经网络模型在审
申请号: | 202310092429.7 | 申请日: | 2023-01-17 |
公开(公告)号: | CN116011547A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张雷;晏晓东;何建杉;褚崴 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/0464;G06F18/22 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 熊洋志;林锦辉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习方法 神经网络 模型 | ||
本说明书实施例提供了基于残差的深度学习方法及神经网络模型。其中,神经网络模型包括多个网络层,每个网络层包括卷积层、动态残差模块和样本表征调整模块,动态残差模块包括相似度子模块。在深度学习方法中,获取训练样本的初始表征;神经网络模型中的各个网络层按照以下方式执行,直至针对神经网络模型的学习完成:将初始表征以及当前网络层中待处理的第一样本表征输入至当前网络层中的相似度子模块,输出相似度表征;将第一样本表征输入当前网络层中的卷积层,输出第二样本表征;以及将第二样本表征、动态残差以及初始表征输入样本表征调整模块,输出第三样本表征。
技术领域
本说明书实施例涉及人工智能技术领域,具体地,涉及基于残差的深度学习方法及神经网络模型。
背景技术
GCN(图卷积神经网络)是非常实用的处理各种与图相关的任务,GCN由多层网络构成。一般来说,深层GCN的性能优于浅层GCN的性能,但在GCN的训练过程中,随着网络层数的增加和训练迭代次数的增加,GCN中各网络层的隐层表征会趋向于收敛到相同值而导致无法区分不同特征,这就导致了Over-Smoothing的问题。
目前,为了解决Over-Smoothing的问题,在GCN中加入残差连接是一种有效的学习方法。在GCN的各个网络层,通过残差权重来增加训练样本的初始表征的比例,从而缓解Over-Smoothing的问题。
发明内容
鉴于上述,本说明书实施例提供了基于残差的深度学习方法及神经网络模型。通过本说明书实施例提供的技术方案,神经网络模型中的各个网络层根据其与训练样本的初始表征之间的相似度来确定该网络层的动态残差,根据动态残差控制初始表征在该网络层中的占比。不仅解决Over-Smoothing的问题,还能够动态调节不同深度的网络层对初始表征的依赖,从而增加神经网络模型对不同深度、不同数据样本集以及数据规模的强适应性。
根据本说明书实施例的一个方面,提供了一种基于残差的深度学习方法,其中,待学习的神经网络模型包括多个网络层,每个网络层包括卷积层、动态残差模块和样本表征调整模块,所述动态残差模块包括相似度子模块;所述深度学习方法包括:获取训练样本的初始表征;所述神经网络模型中的各个网络层按照以下方式执行,直至针对所述神经网络模型的学习完成:将所述初始表征以及当前网络层中待处理的第一样本表征输入至所述当前网络层中的相似度子模块,输出用于表示所述初始表征与所述第一样本表征之间的相似度的相似度表征,其中,所述第一样本表征是与所述当前网络层相邻的上一网络层输出的所述训练样本的样本表征或者所述初始表征;将所述第一样本表征输入所述当前网络层中的卷积层,输出第二样本表征;以及将所述第二样本表征、动态残差以及所述初始表征输入所述样本表征调整模块,输出第三样本表征,其中,所述动态残差根据所述相似度表征确定,所述第三样本表征作为输入给与所述当前网络层相邻的下一网络层的第一样本表征或者所述神经网络模型的输出。
根据本说明书实施例的另一方面,还提供一种神经网络模型,包括:多个网络层,每个网络层包括卷积层、动态残差模块和样本表征调整模块,所述动态残差模块包括相似度子模块;所述神经网络模型的输入层,被配置为接收训练样本的初始表征;各个网络层中的所述相似度子模块,被配置为接收输入的所述初始表征以及当前网络层中待处理的第一样本表征,输出用于表示所述初始表征与所述第一样本表征之间的相似度的相似度表征,其中,所述第一样本表征是与所述相似度子模块所属的网络层相邻的上一网络层输出的所述训练样本的样本表征或者所述初始表征;各个网络层中的所述卷积层,被配置为接收输入的所述第一样本表征,输出第二样本表征;以及各个网络层中的所述样本表征调整模块,被配置为接收输入的所述第二样本表征、动态残差以及所述初始表征,输出第三样本表征,其中,所述动态残差根据所述相似度表征确定,所述第三样本表征作为输入给与所述样本表征调整模块所属的网络层相邻的下一网络层的第一样本表征或者所述神经网络模型的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310092429.7/2.html,转载请声明来源钻瓜专利网。