[发明专利]基于疑问词分类器的神经网络问题生成方法及生成系统在审
申请号: | 202110498928.7 | 申请日: | 2021-05-08 |
公开(公告)号: | CN113094489A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 陈光;顾鑫彤;李思;徐雅静;徐蔚然 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 疑问词 分类 神经网络 问题 生成 方法 系统 | ||
基于疑问词分类器的神经网络问题生成方法及生成系统,涉及互联网技术领域,解决现有基于分类器的网络模型存在生成问题中的疑问词不准确,导致存在根本性错误等问题,生成系统包括答案位置标注模块、疑问词分类器、疑问词添加模块以及神经网络问题生成模型;本发明在神经网络问题生成任务的基础上,将疑问词预测任务建模为一个独立的分类任务,即在神经网络问题生成模型之前,引入一个疑问词分类器,先通过疑问词分类器识别最可能提问的疑问词,再生成完整的问题。目的是提高疑问词生成的准确率和可解释性,最终减小所生成问题和真实问题的差异,提高问题的质量。
技术领域
本发明涉及互联网技术领域,具体涉及一种基于疑问词分类器的神经网络问题生成方法及生成系统。
背景技术
随着计算机技术发展,计算机算力逐渐加强,机器学习、深度学习技术进一步得到发展,自然语言处理逐渐应用到各个场景,例如利用文本分类技术在电影评论、购物的商品评论中挖掘用户偏好、利用摘要生成技术对新闻等文章进行归纳总结,或是通过机器翻译技术,实现同步翻译等。大量的应用场景需要技术,同时随着国内互联网用户的增加,其产生的信息也越来越多。对于海量数据,自动化处理文本信息更凸显其重要意义。因此,由于自然语言处理技术的不可代替及其对于文本处理的超高效率,受到社会广泛关注。
在自然语言处理领域,问题生成(Question Generation,QG)是一个新兴的热门研究课题。传统意义上,QG的定义是给定一篇文本,里面包含一些重要的事实,将这些事实作为待提问答案,由机器自动提出合理的问题。简单的说,QG可以定义为一个优化问题,即在给定文本和答案的前提下,最大化生成合理问题的概率。问题生成具有丰富的实践意义和价值,其应用场景包括:在教育领域,问题生成可以帮助学生思考和提问,以提高阅读理解的能力;在对话系统中,问题生成可以作为冷启动来开始一个话题或者通过对用户的陈述展开提问,提高用户体验;在医药领域,可以用于自动问诊系统,作为一种辅助工具等等。
随着深度学习的发展,端到端神经网络技术已经普遍应用于自然语言处理领域。所谓“端到端”,是指输入端和输出端都是文本序列。端到端神经网络模型通常由一个编码器和一个解码器组成,编码器负责对输入序列进行编码,提取重要的特征,解码器负责识别这些特征,并输出目标序列。而编码器和解码器分别是由神经网络组成,常用的神经网络包括循环神经网络(Recurrent Neural Network,RNN)以及卷积神经网络(ConvolutionalNeural Network,CNN)。相较于传统的机器学习方法,端到端神经网络模型不用人工设计算法提取特征,特征的提取全部是由神经网络完成,减少了人力劳动成本,并且性能更加优越。现有技术多采用基于注意力机制的端到端神经网络模型和其改进。
首次提出基于端到端神经网络问题生成模型的(Learning to Ask:NeuralQuestion Generation for Reading Comprehension,学习去提问:阅读理解的神经问题生成)的文章中,提出将一段文本输入端到端神经网络模型,生成一个问题:
首先,将原始文本转换成词向量的形式,输入到一个编码器中,获取文本的语义特征向量;其次,将特征向量输入到一个解码器中,并添加注意力机制强化对输入文本的理解能力,获取解码后的向量;最后,通过一个全连接层,在每个时刻输出一个单词,最终组成一个问题。该模型的编码器是由一个双向长短期记忆神经网络(Bi-LSTM:BidirectionalLong Short Term Memory)组成,解码器是由一个单向LSTM组成。其中,LSTM是循环神经网络的一种。
如图1所示,现有技术之一的(Paragraph-level Neural Question Generationwith Maxout Pointer and Gated Self-attention Networks,基于最大输出指针和门控自注意力的段落级神经问题生成)的文章中,提到用门控自注意力(Gated Self-attention)和最大输出指针(Maxout Pointer)技术,对更长的输入文本生成问题并减少重复词的产生:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110498928.7/2.html,转载请声明来源钻瓜专利网。