[发明专利]一种基于增量式片段预测的端到端词汇受限文本生成方法有效
申请号: | 202210148591.1 | 申请日: | 2022-02-18 |
公开(公告)号: | CN114282515B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 杨麟儿;聂锦燃;刘鑫;孔存良;杨尔弘;黄轩成;刘洋 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增量 片段 预测 端到端 词汇 受限 文本 生成 方法 | ||
1.一种基于增量式片段预测的端到端词汇受限文本生成方法,其特征在于,包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集;
步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型;
步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S21:接收构造的平行训练数据集的输入序列,并获取平行训练数据集的输入序列所在上下文,同时接收输出片段的序列 ;
步骤S22:使用词嵌入层,获得输入序列的分布式向量表示,输入序列所在上下文的分布式向量表示,以及输出片段序列的分布式向量表示
步骤S23:使用编码器,对输入序列和输入序列所在上下文进行编码,输入序列和输入序列所在上下文编码结果为隐状态序列;
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
输入序列经过编码器,被编码为隐状态序列;
隐状态序列输入解码器,生成对应的输出片段;
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入序列,经过编码器编码为隐状态序列,所述隐状态序列同时输入解码器,经解码器进行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本;
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段;所述片段是关键词之间的连续词汇;在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
2.一种基于增量式片段预测的端到端词汇受限文本生成系统,其特征在于,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
其中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集;
步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型;
其中,所述词汇受限文本生成模型的工作流程包括:
步骤S21:接收构造的平行训练数据集的输入序列,并获取平行训练数据集的输入序列所在上下文,同时接收输出片段的序列;
步骤S22:使用词嵌入层,获得输入序列的分布式向量表示,输入序列所在上下文的分布式向量表示,以及输出片段序列的分布式向量表示;
步骤S23:使用编码器,对输入序列和输入序列所在上下文进行编码,输入序列和输入序列所在上下文编码结果为隐状态序列;
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
其中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
输入序列经过编码器,被编码为隐状态序列;
隐状态序列输入解码器,生成对应的输出片段;
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入序列,经过编码器编码为隐状态序列,所述隐状态序列同时输入解码器,经解码器进行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本;
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段;所述片段是关键词之间的连续词汇;在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210148591.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保偏光纤放大器
- 下一篇:车辆未清洗识别方法、装置及应用