[发明专利]融合内容和形式多样性的中文问题生成方法和系统有效
| 申请号: | 202210894574.2 | 申请日: | 2022-07-28 |
| 公开(公告)号: | CN114970563B | 公开(公告)日: | 2022-10-25 |
| 发明(设计)人: | 孙宇清;察胜男 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/295;G06F40/211;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 济南竹森知识产权代理事务所(普通合伙) 37270 | 代理人: | 刘宏广 |
| 地址: | 250100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 内容 形式 多样性 中文 问题 生成 方法 系统 | ||
融合内容和形式多样性的中文问题生成方法和系统,属于人工智能的技术领域。本发明提出了多样化问题生成框架,可以实现对输入文本材料进行多样化问题三元组生成,依据提出的多样化问题生成框架,可以减少对现有标注数据的依赖,得到生成组合多样且质量较高的问题数据三元组。本发明改用更为多元的句子排名规则,不仅考虑相似度,同时考虑句子间差异度,并且提出多模块对生成数据进行筛选,力求提升生成数据的质量。
技术领域
本发明公开一种融合内容和形式多样性的中文问题生成方法和系统,属于人工智能的技术领域。
背景技术
问题生成任务是让机器拥有自动提问的能力,模仿人类提出问题,实现从理解知识到应用知识的智能学习过程。提出问题的能力对于人和机器智能都极为重要,体现了理解知识、记忆知识、发现知识、使用知识的认知发展历程。问题生成任务还有助于提升下游智能任务的性能,例如通过构建高水平问答数据集,可以降低问答系统人工标注样本的成本,有助于解决问答系统样本数量少的问题;再如,将问题生成技术应用于智能对话系统,可以辅助系统主动发起问话,引导对话方向,实现更加自然的人机交互;也可以应用在教育教学领域,结合具体学科和专业内容,辅助编制试卷和题库。
现有问题生成相关研究主要分为三个方面,一是基于模版的问题生成。例如公开号为CN111159686A的发明专利提出一种基于自然语言处理的人机验证方法和系统,利用现有的语料库分析单词与单词之间的关系,抽取原文内容作为答案,通过句子结构划分提问内容,结合模板生成问题,用于生成人机验证的问答数据样本。再如公开号为CN113705208A的发明专利公布了一种基于领域术语和关键句的中文问题生成方法及装置,包括对输入文档中的句子进行依存句法分析生成候选领域术语,选取指定数量的领域术语;同时采用TF-IDF表示输入文档中的句子,基于T-TextRank算法计算句子的重要性排序,抽取指定数量的关键句;最后基于抽取的领域术语和关键句生成选择题题干、填空题题干和问答题题干,通过模板替换生成问答题。这类基于模板的问题生成方法需要人工设计模版,生成结果流畅性较差。而本发明使用深度学习框架自动生成问题,在提问内容和问题形式等多方面提升了问题多样性,并通过判别器提升问题质量和流畅度,而且不需要人工标注成本。
另一类是基于神经网络的问题生成方法。公开号为CN109614471A的发明专利公布了一种基于生成式对抗网络的开放式问题自动生成方法,构建了开放式问题自动生成数据集,通过训练二分类鉴别器评估生成问题与背景知识的相关度,问题生成器根据收到鉴别器的反馈来调整提问内容,进而改善模型性能。这种方法不能全面分析背景知识和有效选择提问内容,而本发明则是通过多策略组合选定提问内容和生成问题,并通过智能问答模型作为过滤器评估并优化生成问题、背景知识、提问内容三者的逻辑关系,因此,其本发明采用的智能问答模型进行问题质量评估,其评估能力明显优于上述二分类鉴别器,提升了问题质量。
第三类是类比生成方法。公开号为CN113627530A的发明专利公布了一种相似问题文本生成方法,包括:对问题文本集执行文本遮蔽,并预测遮蔽后的文本集对应的预测文本集;选择预测准确度大于或等于预设阈值的预测文本集,并与所述问题文本集汇总,得到扩充样本集,训练问题生成模型,以获得相似问题。这种类比生成方法只能生成相似问题,而本发明不仅采用过滤器提升问题生成任务的性能,而且扩展了生成问题的内容和形式多样性。
综上分析,现有中文问题生成相关技术在问题内容多样性、形式多样性和问题质量等多方面均有不足,需要进一步改进。
发明内容
针对现有技术存在的问题,本发明公开了一种融合内容和形式多样性的中文问题生成方法。
本发明还公开一种实现上述方法的系统。
本发明还公开一种加载有上述方法的程序产品。
本发明还公开一种加载有上述方法的计算机可读存储介质。
本发明公开一种利用上述方法的应用方法。
发明概述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210894574.2/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





