[发明专利]使用注意力模型分析文本信息的方法及装置、电子设备在审
申请号: | 202110445332.0 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113033213A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 焦勇博;于洋;杨丝雨;李钰 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 李春伟 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 注意力 模型 分析 文本 信息 方法 装置 电子设备 | ||
1.一种使用注意力模型分析文本信息的方法,所述注意力模型包括输入层、上下文编码层、信息交互层、信息推理层和输出层,所述方法包括:
使用所述输入层将输入的文本信息中包括的问题词和上下文序列分别转换为问题向量Q和上下文向量P;以及
使用所述上下文编码层分别对所述问题向量Q和所述上下文向量P进行编码和特征提取,得到编码问题特征U和编码上下文特征H;
使用所述信息交互层融合所述编码问题特征U和所述编码上下文特征H,得到针对所述问题词的上下文特征Z;
使用所述信息推理层得到针对所述上下文特征Z的已编码上下文段落特征M;以及
使用所述输出层处理所述已编码上下文段落特征M,以得到并输出所述问题词在所述上下文序列中的位置。
2.根据权利要求1所述的方法,其中,所述上下文编码层包括多个双向Transformer模块,每个双向Transformer模块均包括自注意力模块、前馈神经网络和输出模块。
3.根据权利要求1或2所述的方法,其中,所述信息交互层包括堆叠的多层注意力模块,每层注意力模块包括问题与上下文对齐模块、上下文自对齐模块和上下文推理模块;
所述使用所述信息交互层融合所述编码问题特征U和所述编码上下文特征H,得到针对所述问题词的上下文特征Z包括:
使用所述问题与上下文对齐模块,根据所述编码问题特征U和所述编码上下文特征H,得到针对问题词的上下文段落表示V;
使用所述上下文自对齐模块,根据所述编码上下文特征H和所述上下文段落表示V,得到所述上下文序列中每个词的特征表示以及
使用所述上下文推理模块,根据所述每个词的特征表示得到针对所述问题词的上下文特征表示Z。
4.根据权利要求3所述的方法,其中,所述使用所述问题与上下文对齐模块,根据所述编码问题特征U和所述编码上下文特征H,得到针对问题词的上下文段落表示V包括:
计算所述编码问题特征U和所述编码上下文特征H之间的第一相似度矩阵E;
根据所述相似度矩阵E计算所述上下文序列中每个词关于所述问题词的注意力分布Softmax(E);以及
根据所述注意力分布Softmax(E)计算所述针对所述问题词的上下文段落表示V。
5.根据权利要求4所述的方法,其中,所述根据所述注意力分布计算所述针对所述问题词的上下文段落表示V包括:
根据所述编码问题特征U和所述注意力分布Softmax(E),计算所述上下文序列中每个词关于所述问题词的上下文段落表示矩阵
通过对上下文段落表示矩阵中的元素进行加权并求和,计算所述针对所述问题词的上下文段落表示V。
6.根据权利要求5所述的方法,其中,所述根据所述编码上下文特征H和所述上下文段落表示V,计算所述上下文序列中每个词的特征表示包括:
计算所述上下文序列中每个词彼此之间的相似度矩阵S;
根据所述相似度矩阵S计算所述上下文序列中每个词关于所述上下文序列的注意力分布Softmax(S);以及
根据所述注意力分布Softmax(S)计算所述上下文序列中每个词的特征表示
7.根据权利要求6所述的方法,其中,对于所述多层注意力模块,根据第j-1层注意力的相似度矩阵Ej-1和相似度矩阵Sj-1,计算第j层注意力模块的相似度矩阵Ej和相似度矩阵Sj,j大于等于1小于等于J,J为注意力模块的总层数。
8.根据权利要求1至7中任一项所述的方法,还包括:使用所述问题词在所述上下文序列中的位置来确定与所述问题词相对应的至少一个问题,以便提供针对所述至少一个问题的答复。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110445332.0/1.html,转载请声明来源钻瓜专利网。