[发明专利]基于预训练模型的端到端文本生成方法及相关设备有效
申请号: | 202110698936.6 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113255292B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 张智;白祚 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/126;G06F40/30;G06F40/58;G06F18/214 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 模型 端到端 文本 生成 方法 相关 设备 | ||
本申请实施例属于语音语义处理领域,应用于智慧城市领域中,涉及一种基于预训练模型的端到端文本生成方法,包括获取原始输入文本;通过编码器对所述原始输入文本进行数字化处理,并通过预训练的第一语言模型将数字化处理后的始输入文本进行向量化处理,得到与所述原始输入文本对应的第一上下文表达;将第一上下文表达与历史预测输出输入到预训练的第二语言模型中,得到对所述原始输入文本进行转换后的第二上下文表达;通过所述插入组件预测得到所述第二上下文表达中的待插入位置;通过所述填充组件预测所述待插入位置的预测字词,得到与所述原始输入文本对应的预测输出,直到预测输出与上一预设输出相同。采用本方法大大提高了模型预测的灵活性。
技术领域
本申请涉及语音语义处理领域,特别是涉及一种基于预训练模型的端到端文本生成方法、装置、计算机设备和存储介质。
背景技术
端到端的文本生成模型类似一个黑盒子,往往用于翻译、文本摘要等输入输出不定长度的生成场景。自回归的端到端文本生成模型中,seq2seq是一种典型的结构,由编码器encode和解码器decode组成,编码器负责理解输入,解码器负责参考编码器理解到的内容和之前已经解码出来的内容,来生成新的单个文字的输出,具体可以参考图1所示。
其中,模型在训练时,encode一次读入所有的输入,得到中文“知识就是力量”的隐藏表达,假设为C(其实就是一个高维向量),在解码环节的时候,解码器根据C,和历史的解码器输出,来学习下一个输出应该是什么,相对应图案的例子就是解码器要学习如下几个数据样例(s和/s分别表示字符串的开始和结束):
输入:C,“s”输出:Knowledge
输入:C,“sKnowledge”输出:is
输入:C,“sKnowledge is”输出:power
输入:C,“sKnowledge is power”输出:/s
在预测的时候动作类似:
第一轮:输入:C,“s”假设模型输出为:Knowledge
第二轮:在做自回归动作的时候,将上一步输出的Knowledge作为新一轮的输入,有:
输入:C,“sKnowledge”假设模型输出为:is
第三轮:输入:C,“sKnowledge is”假设模型输出为:force(注意,这里模型是个出错的距离)
第四轮:输入:C,“sKnowledge is force”假设模型输出:/s
可见,自回归模型在预测的时候,经过四轮才能完整输出sKnowledge is force/s,整个过程中必须穿行操作去等待每一轮的输出作为下一轮的输入,性能较差。当上一部的预测包含错误之后,没有很好的办法回头改正,将force改为power,可见可控性交叉,不够灵活。
发明内容
基于此,针对上述技术问题,本申请提供一种基于预训练模型的端到端文本生成方法、装置、计算机设备及存储介质,以解决现有技术中自回归模型可控性差,导致的性能差的技术问题。
一种基于预训练模型的端到端文本生成方法,所述预训练模型为改进后的seq2seq自回归模型,其中,所述自回归模型包括编码器和解码器,所述解码器包括插入组件以及填充组件,所述方法包括:
获取原始输入文本;
通过编码器对所述原始输入文本进行数字化处理,并通过预训练的第一语言模型将数字化处理后的原始输入文本进行向量化处理,得到与所述原始输入文本对应的第一上下文表达;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110698936.6/2.html,转载请声明来源钻瓜专利网。