[发明专利]一种注意力模型、特征提取方法及相关装置在审
申请号: | 202110731775.6 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113627163A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 唐业辉;韩凯;王云鹤;肖安;许春景 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06K9/32;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 注意力 模型 特征 提取 方法 相关 装置 | ||
本申请实施例公开了一种注意力模型以及特征提取方法,应用于人工智能技术领域。该注意力模型包括:一个或多个串行连接的自注意力网络,所述自注意力网络包括自注意力模块、多层感知机和第一神经网络层;所述自注意力模块包括多个并行的特征提取层和融合层,所述融合层分别与所述多个并行的特征提取层连接;所述多层感知机与所述自注意力模块串行连接,所述多层感知机包括多个串行的第一全连接层;所述第一神经网络层与所述自注意力模块以及所述多层感知机中的一个或多个并行连接,其中所述第一神经网络层用于执行特征变换。基于本方案,能够增加注意力模型所提取的特征的多样性,增强了特征的表达能力,从而提高注意力模型的性能。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种注意力模型、特征提取方法及相关装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
近年来,自注意力网络已经在许多自然语言处理(Natural LanguageProcessing,NLP)任务中得到了很好的应用,例如机器翻译,情感分析和问题解答等。随着自注意力网络的广泛应用,源于自然语言处理领域的自注意力网络在图像分类、目标检测、和图像处理等任务上也取得了很高的性能。
在自注意力网络中,由于自注意力网络层对特征的处理,输入数据的特征随着网络的加深而容易变得无法区分,这些无法区分的特征具有弱的表示能力。这种随着网络的加深而导致特征变得无法区分的现象通常称为特征坍塌(feature collapse)。
目前,在自注意力网络中添加捷径(shortcut)可以缓解特征坍塌的现象,避免特征出现无法区分的情况。然而,在自注意力网络中所添加的shortcut只是简单地将自注意力网络层的输入特征复制至自注意力网络层的输出,无法增强特征的表达能力,导致自注意力网络的性能较差。
发明内容
本申请提供了一种注意力模型以及特征提取方法,能够增加注意力模型所提取的特征的多样性,增强了特征的表达能力,从而提高注意力模型的性能。
本申请第一方面提供一种注意力模型,包括:一个或多个串行连接的自注意力网络,所述自注意力网络包括自注意力模块、多层感知机和第一神经网络层。
所述自注意力模块包括多个并行的特征提取层和融合层,所述融合层分别与所述多个并行的特征提取层连接。其中,自注意力模块是采用了自注意力机制的网络,能够将输入序列的不同位置关联起来以计算同一序列的表示。
所述多层感知机与所述自注意力模块串行连接,所述多层感知机包括多个串行的第一全连接层。具体地,所述多层感知机也可以称为全连接神经网络(Fully ConnectedNetwork,FCN),所述多层感知机包括输入层、隐藏层以及输出层,隐藏层的数量可以为一层或多层。其中,所述多层感知机中的网络层均为全连接层。即,所述多层感知机的输入层与隐藏层之间是全连接的,所述多层感知机的隐藏层与输出层之间也是全连接的。
所述第一神经网络层与所述自注意力模块以及所述多层感知机中的一个或多个并行连接,其中所述第一神经网络层用于执行特征变换。
本方案中,通过在自注意力模块、多层感知机的基础上引入另一个并行的神经网络层,由该并行的神经网络层对输入特征执行特征变换操作,得到变换后的特征。并且,变换后的特征与自注意力模块和/或多层感知机的输出特征相加,以增加自注意力网络中间层所输出的特征的多样性,增强了特征的表达能力,从而提高注意力模型的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110731775.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:混叠数字信号合成孔径定位方法
- 下一篇:一种离心压缩机的内置式导叶调节机构