[发明专利]一种基于随机扰动网络的开放性答案生成方法有效
申请号: | 202011298514.1 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112380843B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 井焜;王太浩;张传锋;朱锦雷 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F16/332;G06F40/30;G06N3/04 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 扰动 网络 开放性 答案 生成 方法 | ||
1.一种基于随机扰动网络的开放性答案生成方法,其特征在于:包括以下步骤:
a)、使用输入设备获取原始的多模态输入数据;
为了对多模态数据进行统一表征,本方法提出一个多模态的扩展词典,扩展词典包括文字符号和由M种颜色和N种亮度等级构成的M*N种像素集合;基于多模态的扩展词典,将输入数据中的每个字符或像素映射为唯一的索引值,然后将输入数据的形状展平成一维,从而得到统一的序列化层,经过截断或填充,将序列化层转化为一个固定长度的整数序列N1,N2,...,Nlength,length为整数序列的长度,整数序列的长度等于扩展词典中字符的数目;
定义扩展嵌入矩阵为一个V*d的正实数矩阵,该矩阵表征了扩展词典中每个字符的浅层语义,d为语义嵌入的维度,V是扩展词典中字符的数目;将整数序列乘上扩展嵌入矩阵,原始的输入数据就被转化为一个固定形状的正实数矩阵Mlength×d,矩阵Mlength×d的每一行为该位置的整数索引对应的嵌入向量;
基于字符位置、序列片段位置对语义的影响,本方法在输入数据中加入相应表示,因此本方法输入层最终构造的特征为:
其中代表整数序列中每个字符的位置嵌入向量,代表整数序列中每个字符的任务类别嵌入向量,分别代表了整数序列中每个字符所属的词、句、段、篇的嵌入向量;
b)、将多模态的数据进行序列化,使用多任务编码网络对序列化的多任务数据进行编码;
输入层最后得到的二阶特征张量传递至编码网络,编码网络是答案生成网络的一部分,编码网络实现对浅层特征的深层语义编码,编码网络由多个Transformer层堆叠而成,每个Transformer层的输入张量和输出张量的形状保持不变,每个Transformer层由一个双向自注意力层和一个前向传播与正则化层构成,双向自注意力层的计算公式为:
HL+1=Attention(WQHL,WKHL)×WVHL (2),
其中L表示第L个Transformer层,Attention为二元函数,一般使用向量点积,HL代表第L个Transformer层的特征矩阵,WQ、WK、WV是三个形状相同的参数矩阵,通过已标注数据对网络进行训练来求解,分别表示对用户请求、知识库、答案三部分特征所施加的非线性变换;
c)、使用多模态扰动网络对原始特征进行修正;
本方法在训练答案生成网络时,同时训练一个产生随机扰动、多模态扰动层集成的扰动网络,所述扰动网络在前向传播过程中对输入信息进行修正,使得任意两次输入的语义编码都不是完全相同的,并且答案生成网络与扰动网络协同训练,扰动网络不会使答案生成模型生成不合理的文本;基于此,对于任意两次输入,本方法给出不完全相同但都正确的答案;
d)、对扰动后的特征进行基于预训练语言模型的解码,将解码结果转化为文本输出;
答案生成网络包括解码网络,解码网络将经过编码、扰动的张量特征解码为一段语言文字,为了减轻模型对有标注的数据规模的依赖,解码网络在LSTM解码层前增加基于预训练语言模型的单向自注意力层,单向自注意力层中的权重参数通过12层的GPT语言模型预训练来获取,在使用标注数据训练答案生成网络时,这些权重被固定为常数,单向自注意力层不参与训练;解码网络由多个结构相同的解码单元堆叠而成,每个解码单元包括一个预训练语言模型单向自注意力层、一个交互注意力层和一个前向传播与正则化层,解码网络的表达形式为:
其中,Elength×s表示经过编码、扰动的张量特征,是前方字符解码向量序列构成的矩阵,是要求解的字符解码向量序列构成的矩阵,out_len代表生成答案的长度,DU为DecoderUnit的缩写,E代表Elength×s,Wkey和Wvalue为两个参数矩阵,在对单向自注意力层的训练中获得,Wkey和Wvalue在各个字符解码向量生成的过程中是共享的,Transformer、Attention、Norm分别代表自注意力网络、交互注意力网络和正则化网络;
输出层对解码网络的输出进行线性变换得到最终生成的答案文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011298514.1/1.html,转载请声明来源钻瓜专利网。