[发明专利]文本生成方法和文本生成模型的训练方法、装置有效
申请号: | 202211306837.X | 申请日: | 2022-10-24 |
公开(公告)号: | CN115630651B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王凡;鲍思琪;何煌;吴华;林英展;黄世维;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/383;G06N3/048;G06N3/044;G06N3/0455;G06N3/08 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕朝蕙 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 模型 训练 装置 | ||
1.一种文本生成方法,包括:
对待处理文本进行预处理,得到嵌入特征序列,嵌入特征序列包括与所述待处理文本中文本单元对应的嵌入特征;
将所述嵌入特征序列输入由编码单元构成的注意力网络,得到所述注意力网络输出的文本特征序列;以及
对所述文本特征序列进行解码,生成所述待处理文本的在后文本,
其中,所述编码单元被配置执行以下操作:
采用注意力机制对输入的特征序列进行编码,得到第一特征序列;
根据隐藏状态特征调整所述第一特征序列,得到第二特征序列;所述隐藏状态特征表征所述待处理文本的在前文本的语义;以及
根据所述第二特征序列更新所述隐藏状态特征,
其中,更新后的隐藏状态特征用于对后续的第一特征序列进行调整;后续的第一特征序列是采用注意力机制对所述编码单元后续输入的特征序列进行编码得到的;后续输入的特征序列是通过对所述待处理文本的在后文本预处理得到的。
2.根据权利要求1所述的方法,其中,所述根据隐藏状态特征,调整所述第一特征序列,得到第二特征序列包括:
根据所述隐藏状态特征和所述输入的特征序列,确定对应所述第一特征序列的调整量;以及
根据所述调整量调整所述第一特征序列,得到所述第二特征序列。
3.根据权利要求1所述的方法,其中,所述输入的特征序列包括与所述文本单元对应的第一文本特征;所述第二特征序列包括与所述文本单元对应的第二文本特征;所述根据所述第二特征序列更新所述隐藏状态特征包括:
根据所述第二文本特征和所述第一文本特征,确定针对所述文本单元的更新量;以及
根据所述更新量,更新所述隐藏状态特征。
4.根据权利要求3所述的方法,其中,所述根据所述第二文本特征和所述第一文本特征,确定针对所述文本单元的更新量包括:
采用赫布定律对所述第二文本特征和所述第一文本特征进行处理,得到针对所述文本单元的所述更新量。
5.根据权利要求4所述的方法,其中,所述采用赫布定律对所述第二文本特征和所述第一文本特征进行处理,得到针对所述文本单元的所述更新量包括:采用以下公式得到所述更新量:
其中,ΔWi为针对待处理文本中第i个文本单元的所述更新量;Y′i为对应所述第i个文本单元的第二文本特征;Hi为对应所述第i个文本单元的第一文本特征,WA、WB、WC、WD为所述编码单元的网络参数;为叉乘操作符号;⊙为点乘操作符号。
6.根据权利要求3所述的方法,其中,所述根据所述第二特征序列更新所述隐藏状态特征还包括:
对所述第二文本特征进行非线性处理,得到针对所述文本单元的学习率;以及
根据所述学习率和所述更新量,更新所述隐藏状态特征。
7.根据权利要求6所述的方法,其中,所述待处理文本中包括多个文本单元;所述根据所述学习率和所述更新量,更新所述隐藏状态特征包括:
根据针对所述文本单元的所述学习率和所述更新量,确定针对所述文本单元的加权更新量;以及
根据针对多个所述文本单元的多个加权更新量,更新所述隐藏状态特征。
8.根据权利要求7所述的方法,其中,所述根据针对多个所述文本单元的多个加权更新量,更新所述隐藏状态特征包括:
根据多个所述加权更新量的和,调整所述隐藏状态特征,得到调整后状态特征;以及
采用边界函数更新所述调整后状态特征,得到更新后的隐藏状态特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211306837.X/1.html,转载请声明来源钻瓜专利网。