[发明专利]融合内容和形式多样性的中文问题生成方法和系统有效
| 申请号: | 202210894574.2 | 申请日: | 2022-07-28 |
| 公开(公告)号: | CN114970563B | 公开(公告)日: | 2022-10-25 |
| 发明(设计)人: | 孙宇清;察胜男 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/295;G06F40/211;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 济南竹森知识产权代理事务所(普通合伙) 37270 | 代理人: | 刘宏广 |
| 地址: | 250100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 内容 形式 多样性 中文 问题 生成 方法 系统 | ||
1.一种融合内容和形式多样性的中文问题生成方法,其特征在于,包括:
步骤(1)利用内容选择器对原始文本进行选择得到内容文本,所述内容选择器提出了两种内容选择策略:
一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法;另一种是基于摘要的内容生成方法;
步骤(2)在步骤(1)得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;
步骤(3)将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合,得到最大可能的生成方法组合,通过问题生成模型得到多样的问题生成数据三元组;
步骤(4)使用智能问答模型作为生成样本过滤器,根据生成数据样本中答案类型的不同设定不同的答案比对方法:
当生成数据样本中答案是实体时,则判断预测答案和生成答案是否相同,即预测答案的起始位置与终止位置与样本答案的相应位置是否相同:若预测答案与生成答案不相同,则认为该数据样本是低质量样本,进行丢弃;
当生成数据样本中的答案是句子时,则判断预测答案文本是否包含在生成答案之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置:若不包含在内,则认为该数据样本是低质量样本。
2.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,在步骤(1)中,所述基于规则的代表性和基于句子间文本差异性的内容抽取方法,包括:
步骤(1-1)基于规则的代表性的内容抽取方法包括:
将原始文本分割成若干单句,采用句子与文本的语义相似度作为句子的代表性得分,
在公式(I)、(II)中,首先生成
步骤(1-2)基于句子间文本差异性的内容抽取方法包括:
将原始文本分割成若干单句,某条句子的差异性得分为:该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值;
(III)
(IV)
在公式(III)和(IV)中,
步骤(1-3)对代表性和差异性内容文本标记:
将所述代表性句子集合
同时对所述融合句子集合做规则设定排序:
若某句子同时存在于代表性句子集合
最终输出内容记作
步骤(1-4)基于摘要的内容生成方法,采用生成式摘要的方式进行生成内容文本:
使用BiLSTM结构作为摘要模型编码器,将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码,得到文档的向量矩阵,将输入文本记为
(VI)
(VII)
(VIII)
在公式(VI)-(VIII)中,代表当前
所述编码器的输出向量为:
在公式(IX)中,
解码器部分采用单层LSTM网络结果:
(X)
在公式(X)中,
摘要模型编码器编码的文本信息
将摘要模型编码器输出向量
(XI)
(XII)
(XIII)
在公式(XI)-(XIII)中,
文本摘要生成器首先在标注摘要数据上进行预训练,使用预训练好的模型,对输入文本直接获得摘要文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210894574.2/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





