[发明专利]文本生成模型的训练方法、文本生成方法及装置在审
申请号: | 202110183523.4 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112836519A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 张林箭;张聪;王丽;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 模型 训练 方法 装置 | ||
1.一种文本生成模型的训练方法,其特征在于,包括:
根据预设语料库构建文本数据集;
对所述文本数据集中的每个目标文本数据提取关键词,得到训练关键词集合;
根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练,得到文本生成模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设语料库构建文本数据集的步骤,包括:
利用指定符号对预设语料库中包含的语料进行切句处理,得到多个候选文本数据;
基于预设文本长度从各个所述候选文本数据中筛选出目标文本数据,并基于所述目标文本数据构建文本数据集。
3.根据权利要求1所述的方法,其特征在于,所述对所述文本数据集中的每个目标文本数据提取关键词,得到训练关键词集合的步骤,包括:
对所述文本数据集中的每个目标文本数据进行关键词提取处理,得到多个关键词;其中,所述关键词提取处理包括分词处理和筛选处理,所述筛选处理包括长度筛选处理和/或指定词筛选处理;
对各个所述关键词进行关键词乱序处理,得到乱序结果;其中,所述乱序结果与各个关键词的词频-逆文档频率相关;
基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词,得到训练关键词集合。
4.根据权利要求3所述的方法,其特征在于,所述对各个所述关键词进行关键词乱序处理,得到乱序结果的步骤,包括:
针对每个所述关键词,统计该关键词的词频和逆文档频率,并计算该关键词的词频与该关键词的逆文档频率的乘积,得到该关键词的词频-逆文档频率;
将各个所述关键词的词频-逆文档频率作为乱序结果。
5.根据权利要求4所述的方法,其特征在于,所述基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词,得到训练关键词集合的步骤,包括:
按照所述乱序结果中词频-逆文档频率由高到低的顺序,从各个所述关键词中选择随机数量的目标关键词,得到训练关键词集合。
6.根据权利要求1所述的方法,其特征在于,所述基于多头注意力机制的深度模型包括第一GPT-2语言模型,所述第一GPT-2语言模型包括多个GPT-2单元,每个所述GPT-2单元均包括第一多头注意力网络、第一归一化层、第一前馈神经网络和第二归一化层。
7.根据权利要求6所述的方法,其特征在于,所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练,得到文本生成模型的步骤,包括:
对于文本数据集中的每个目标文本数据,按照第一预设格式对该目标文本数据和该目标文本数据所包含的关键词进行拼接,得到该目标文本数据对应的第一输入数据;
通过第一GPT-2语言模型基于该目标文本数据对应的第一输入数据,生成该目标文本数据对应的预测文本数据;
基于该目标文本数据和该目标文本数据对应的预测文本数据修改第一GPT-2语言模型的参数,得到文本生成模型。
8.根据权利要求1所述的方法,其特征在于,所述基于多头注意力机制的深度模型包括seq2seq生成模型,所述seq2seq生成模型包括多个编码单元和多个译码单元;
每个所述编码单元均包括第二多头注意力网络、第三归一化层、第二前馈神经网络和第四归一化层;每个所述译码单元均包括第三多头注意力网络、第四多头注意力网络、第五归一化层、第三前馈网络和第六归一化层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183523.4/1.html,转载请声明来源钻瓜专利网。