[发明专利]一种问题生成方法及装置有效
申请号: | 202010757542.9 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111737439B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 彭爽;崔恒斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N20/00 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问题 生成 方法 装置 | ||
1.一种问题生成方法,所述方法包括:
将原始问题样本和目标问题样本作为训练样本,对由机器阅读模型和评分函数构成的判别器进行逆强化学习训练;其中,所述评分函数用于计算所述机器阅读模型输出的对应于所述原始问题样本的答案,与对应于所述目标问题样本的答案之间的重合度评分;所述目标问题样本,为将所述原始问题样本输入问题生成模型生成的语义相似的问题;
将所述评分函数输出的重合度评分作为回报,将所述原始问题样本作为训练样本,对由所述问题生成模型构成的生成器进行强化学习训练,以进一步形成所述生成器和所述判别器之间的,以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练;
获取原始问题,并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型,以得到与所述原始问题对应的语义相似的目标问题。
2.根据权利要求1所述的方法,所述逆强化学习训练的优化目标包括:将所述机器阅读模型输出正确答案的概率调整到最大。
3.根据权利要求2所述的方法,所述机器阅读模型输出的答案,为该答案在预设的知识库中的位置坐标。
4.根据权利要求3所述的方法,所述逆强化学习训练的目标函数包括:
其中,表示所述机器阅读模型中的参数,表示在所述机器阅读模型中的参数为的情况下,所述逆强化学习训练的目标函数;表示参与逆强化学习训练的问题样本的个数;和分别表示所述机器阅读模型输出的,与参与逆强化学习训练的问题样本对应的答案在知识库中的首坐标和尾坐标,代表所述问题样本对应的答案在所述知识库中的首坐标正确的概率;代表所述问题样本对应的答案在所述知识库中的尾坐标正确的概率。
5.根据权利要求2所述的方法,所述逆强化学习训练的目标函数包括:
其中,表示所述机器阅读模型中的参数,表示在所述机器阅读模型中的参数为的情况下,所述逆强化学习训练的目标函数;表示参与逆强化学习训练的问题样本的个数,表示所述机器阅读模型输出的,与参与逆强化学习训练的问题样本对应的答案; 代表所述问题样本对应的答案正确的概率。
6.根据权利要求1所述的方法,所述强化学习训练的优化目标包括:
将所述问题生成模型所生成的目标问题对应的生成概率与生成该问题所产生的回报的乘积调整到最大。
7.根据权利要求6所述的方法,所述强化学习训练的目标函数包括:
其中,代表问题生成模型中的参数,代表在所述问题生成模型中的参数为的情况下,进行强化学习训练的目标函数;代表所述问题生成模型生成的问题的长度,代表所述问题生成模型生成的长度为的问题所产生的回报;代表所述问题生成模型生成的、长度为的问题中的第个字符,代表在所述问题生成模型中的参数为的情况下,根据给定的原始问题,和生成的所述长度为T的问题的前个字符,生成第个字符的概率。
8.根据权利要求1所述的方法,
所述问题生成模型包括指针生成网络模型。
9.根据权利要求1所述的方法,
所述重合度评分包括F1-score评分。
10.根据权利要求1所述的方法,所述对抗训练的收敛条件包括:
所述判别器无法区分目标问题样本和原始问题样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010757542.9/1.html,转载请声明来源钻瓜专利网。