[发明专利]一种低资源语言问答语料库生成方法有效
| 申请号: | 201910501879.0 | 申请日: | 2019-06-11 |
| 公开(公告)号: | CN110196899B | 公开(公告)日: | 2020-07-21 |
| 发明(设计)人: | 孙媛;夏天赐 | 申请(专利权)人: | 中央民族大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100081 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 资源 语言 问答 语料库 生成 方法 | ||
本发明涉及一种低资源语言问答语料库生成方法,该方法包括以下步骤:采用生成对抗网络生成问答语料库,通过最大似然估计对随机问句序列进行初始化,然后送入生成器准循环神经网络中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代速度,最后使用语言模型对产生的问题进行语法优化,使得问题更加准确、自然。本发明通过优化生成对抗网络模型,自动地构建出大规模的低资源语言问答语料库,为进一步开展低资源语言问答系统研究提供了支撑;并通过对生成对抗网络模型进行优化,通过使用准循环神经网络模型作为生成器的基本单元,以及优化蒙特卡罗搜索算法降低模型的收敛时间。
技术领域
本发明涉及问答系统技术领域,特别涉及一种低资源语言问答语料库生成方法
背景技术
近年来,随着信息化的快速发展,人工智能领域取得了突飞猛进的进步,问答系统作为人工智能领域的一个重要分支也受到了越来越多的关注。问答系统可以接受并理解用户输入的自然语言问句,同时返回给用户准确而简约的答案。目前,由于存在大规模公开的问答语料库(如Google的Natural Questions,Facebook的SimpleQuestions,微软的WikiQA,TREC QA,百度中文问答数据集WebQA等),问答系统在英、汉等语言取得了很大进展,而低资源语言问答系统的研究还处于起步阶段,缺少公开的问答语料库是一个很重要的原因,因此如何有效构建出大规模的低资源语言问答语料库至关重要。
传统人工标注构建语料库的方法需要花费大量的时间和人力。因此,很多研究者把重心放在构造虚拟问答对的任务上,主要采用基于模板的方式进行构建。基于模板的构建方式利用知识库或者文本段落,通过人工抽取、标注等操作,将问句从知识库或者文本段落中提取出来,并且转化成自然语言问句。但是,基于模板的构建方式存在相应的问句质量无法保证,问句同质化严重的问题。
发明内容
本发明的目的在于,解决低资源语言问答语料库资源匮乏的问题,利用小规模的低资源语言问答语料库,将生成对抗网络(GAM)网络应用于低资源语言问答语料库生成中。
为实现上述目的,本发明提供了一种低资源语言问答语料库生成方法,该方法包括以下步骤:
采用生成对抗网络生成问答语料库;通过最大似然估计对随机产生的样本数据进行初始化;然后送入准循环神经网络的生成器中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代速度,最后使用语言模型对产生的问题进行语法优化,使得问题更加准确、自然。
优选地,本发明通过数据库中已统计字符随机产生一定量的样本数据,同时为了缩小产生的样本数据和真实数据的概率分布差异,使用最大似然估计对产生的随机样本数据进行初始化,然后再送入准循环神经网络的生成器中。
优选地,本发明通过优化蒙特卡洛搜索算法训练一个可以对部分已生成前缀进行打分的判别器,加速强化学习搜索效率;判别器采用长短期记忆网络结构,为了使得生成的样本数据更加逼近真实样本的数据分布,利用强化学习对生成器和判别器分别进行参数调优;为了对文本序列进行策略优化,通过在判别器对各个生成样本打出概率得分上会减去一个惩罚基准值来优化搜索空间,进而优化整个搜索策略。
优选地,本发明使用BERT模型对问题进行修正和优化,使得生成的问题更加自然、准确。
优选地,本发明最大似然估计对产生的随机样本数据进行初始化步骤,包括:定义初始化序列为T=(t1,t2,L,tn),通过训练得到初始化数据模型参数θ。即
优选地,生成器使用准循环神经网络模型单元,即
ht=QRNN(ht-1,xt)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910501879.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:呼叫中心营销数据的管理方法及系统
- 下一篇:用于终端的交互方法和装置





