[发明专利]一种基于增量式片段预测的端到端词汇受限文本生成方法有效
申请号: | 202210148591.1 | 申请日: | 2022-02-18 |
公开(公告)号: | CN114282515B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 杨麟儿;聂锦燃;刘鑫;孔存良;杨尔弘;黄轩成;刘洋 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增量 片段 预测 端到端 词汇 受限 文本 生成 方法 | ||
本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于增量式片段预测的端到端词汇受限文本生成方法。
背景技术
词汇受限文本生成可以为给定的关键词生成一句包含所有关键词的自然语言,在语言学习、广告生成、故事生成等方面具有重大的理论力量和实践意义。
由于词汇受限文本生成要求生成的文本必须包含所有的关键词,而端到端的深度学习模型是基于概率建模,无法保证所有关键词都包含在生成的文本中。
现有的词汇受限文本生成技术基于随机搜索或改进的柱搜索来保证所有关键词都出现在生成的文本中。这两类方法都不是端到端方式生成,其生成速度非常慢,难以应用在实际场景中。
发明内容
针对上述问题,本发明的目的在于提供一种基于增量式片段预测的端到端词汇受限文本生成方法及系统,在生成过程中依次生成关键词之间的片段来保证所有关键词包含在生成的文本中。本发明创造性地提出增量式片段预测的端到端方法进行词汇受限文本生成,不仅保证了所有关键词包含在生成的文本中,而且具有高效的生成效率,方便应用于实际场景中。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种基于增量式片段预测的端到端词汇受限文本生成方法,包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
优选地,步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集。
优选地,步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集。
优选地,所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段。
优选地,所述片段是关键词之间的连续词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210148591.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保偏光纤放大器
- 下一篇:车辆未清洗识别方法、装置及应用