[发明专利]文本生成模型的训练方法、文本生成方法及装置在审
申请号: | 202110183523.4 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112836519A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 张林箭;张聪;王丽;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 模型 训练 方法 装置 | ||
本发明提供了一种文本生成模型的训练方法、文本生成方法及装置,涉及自然语言处理技术领域,包括:根据预设语料库构建文本数据集;对所述文本数据集中的每个目标文本数据提取关键词,得到训练关键词集合;根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练,得到文本生成模型。本发明可以有效改善现有技术中词造句功能多样化受限的问题,从而提高用户体验。
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种文本生成模型的训练方法、文本生成方法及装置。
背景技术
随着人机交互技术的飞速发展,在KBQA(Question Answering over KnowledgeBase,基于知识库的问答)领域,可以利用词造句功能基于用户问题向用户提供完整回答,其中,词造句功能是指基于给定的关键词生成通顺完整的语句。目前,相关技术中提出两种词造句功能的可行思路,其一是将关键词添加至预先配置的固定模板中,即可得到包含有关键词的完整语句,但是存在人工标注成本较大、不利于表述多样化等问题;其一是根据三元组从历史文本中查找到包含有关键词的语句,并基于查找到的语句总结模板,然而这种方案也将导致表述多样化受限。综上所述,现有技术中的词造句功能无法较好地生成多样化的文本,导致用户体验较差。
发明内容
有鉴于此,本发明的目的在于提供一种文本生成模型的训练方法、文本生成方法及装置,可以有效改善现有技术中词造句功能多样化受限的问题,从而提高用户体验。
第一方面,本发明实施例提供了一种文本生成模型的训练方法,包括:根据预设语料库构建文本数据集;对所述文本数据集中的每个目标文本数据提取关键词,得到训练关键词集合;根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练,得到文本生成模型。
在一种实施方式中,所述根据预设语料库构建文本数据集的步骤,包括:利用指定符号对预设语料库中包含的语料进行切句处理,得到多个候选文本数据;基于预设文本长度从各个所述候选文本数据中筛选出目标文本数据,并基于所述目标文本数据构建文本数据集。
在一种实施方式中,所述对所述文本数据集中的每个目标文本数据提取关键词,得到训练关键词集合的步骤,包括:对所述文本数据集中的每个目标文本数据进行关键词提取处理,得到多个关键词;其中,所述关键词提取处理包括分词处理和筛选处理,所述筛选处理包括长度筛选处理和/ 或指定词筛选处理;对各个所述关键词进行关键词乱序处理,得到乱序结果;其中,所述乱序结果与各个关键词的词频-逆文档频率相关;基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词,得到训练关键词集合。
在一种实施方式中,所述对各个所述关键词进行关键词乱序处理,得到乱序结果的步骤,包括:针对每个所述关键词,统计该关键词的词频和逆文档频率,并计算该关键词的词频与该关键词的逆文档频率的乘积,得到该关键词的词频-逆文档频率;将各个所述关键词的词频-逆文档频率作为乱序结果。
在一种实施方式中,所述基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词,得到训练关键词集合的步骤,包括:按照所述乱序结果中词频-逆文档频率由高到低的顺序,从各个所述关键词中选择随机数量的目标关键词,得到训练关键词集合。
在一种实施方式中,所述基于多头注意力机制的深度模型包括第一 GPT-2语言模型,所述第一GPT-2语言模型包括多个GPT-2单元,每个所述GPT-2单元均包括第一多头注意力网络、第一归一化层、第一前馈神经网络和第二归一化层。
在一种实施方式中,所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练,得到文本生成模型的步骤,包括:对于文本数据集中的每个目标文本数据,按照第一预设格式对该目标文本数据和该目标文本数据所包含的关键词进行拼接,得到该目标文本数据对应的第一输入数据;通过第一GPT-2语言模型基于该目标文本数据对应的第一输入数据,生成该目标文本数据对应的预测文本数据;基于该目标文本数据和该目标文本数据对应的预测文本数据修改第一GPT-2语言模型的参数,得到文本生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183523.4/2.html,转载请声明来源钻瓜专利网。