[发明专利]融合内容和形式多样性的中文问题生成方法和系统有效

专利信息
申请号: 202210894574.2 申请日: 2022-07-28
公开(公告)号: CN114970563B 公开(公告)日: 2022-10-25
发明(设计)人: 孙宇清;察胜男 申请(专利权)人: 山东大学
主分类号: G06F40/35 分类号: G06F40/35;G06F40/295;G06F40/211;G06N3/04;G06N3/08;G06N5/04
代理公司: 济南竹森知识产权代理事务所(普通合伙) 37270 代理人: 刘宏广
地址: 250100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 内容 形式 多样性 中文 问题 生成 方法 系统
【权利要求书】:

1.一种融合内容和形式多样性的中文问题生成方法,其特征在于,包括:

步骤(1)利用内容选择器对原始文本进行选择得到内容文本,所述内容选择器提出了两种内容选择策略:

一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法;另一种是基于摘要的内容生成方法;

步骤(2)在步骤(1)得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;

步骤(3)将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合,得到最大可能的生成方法组合,通过问题生成模型得到多样的问题生成数据三元组;

步骤(4)使用智能问答模型作为生成样本过滤器,根据生成数据样本中答案类型的不同设定不同的答案比对方法:

当生成数据样本中答案是实体时,则判断预测答案和生成答案是否相同,即预测答案的起始位置与终止位置与样本答案的相应位置是否相同:若预测答案与生成答案不相同,则认为该数据样本是低质量样本,进行丢弃;

当生成数据样本中的答案是句子时,则判断预测答案文本是否包含在生成答案之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置:若不包含在内,则认为该数据样本是低质量样本。

2.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,在步骤(1)中,所述基于规则的代表性和基于句子间文本差异性的内容抽取方法,包括:

步骤(1-1)基于规则的代表性的内容抽取方法包括:

将原始文本分割成若干单句,采用句子与文本的语义相似度作为句子的代表性得分,scorer(si,D)定义为文档D与文档中第i条句子si的代表性评分函数:

在公式(I)、(II)中,首先生成si,文档D的向量表示;W(si,D)表示两个向量间的余弦相似度;按照评分由大到小取代表性评分的前k个句子,作为最终的代表性句子集合Mk

步骤(1-2)基于句子间文本差异性的内容抽取方法包括:

将原始文本分割成若干单句,某条句子的差异性得分为:该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值;scored(si,D)定义为文档中第i条句子si在文档D中的差异性评分函数:

(III)

(IV)

在公式(III)和(IV)中,sj为文档D中第j条句子,且i≠j,首先生成sisj的向量表示;W(sisj)表示两个句向量间的余弦相似度;按照评分由大到小取差异性评分前m个句子,作为最终的差异性句子集合Fm;num为句子集合中句子的总数;

步骤(1-3)对代表性和差异性内容文本标记:

将所述代表性句子集合Mk和差异性句子集合Fm取并集做句子融合,形成融合句子集合;

同时对所述融合句子集合做规则设定排序:

若某句子同时存在于代表性句子集合Mk和差异性句子集合Fm中,则该句子获得优先排序;剩余句子,则按照存在于代表性句子集合Mk中进行次优先排序;仅存在于差异性句子集合Fm中的句子进行最后排序;

最终输出内容记作Ru

Ru=MkFm (V);

步骤(1-4)基于摘要的内容生成方法,采用生成式摘要的方式进行生成内容文本:

使用BiLSTM结构作为摘要模型编码器,将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码,得到文档的向量矩阵,将输入文本记为Xn,则Xn中的第i个字符记作xi

(VI)

(VII)

(VIII)

在公式(VI)-(VIII)中,代表当前t时间步从前向后编码的隐藏状态;代表当前t时间步从后向前编码的隐藏状态;ht是和的拼接结;

所述编码器的输出向量为:h=[h1,h2...hn](IX)

在公式(IX)中,h为所有时间步隐藏状态进行拼接得到摘要模型编码器的输出;

解码器部分采用单层LSTM网络结果:

(X)

在公式(X)中,st表示在当前t时间步上解码器的隐藏状态;yt-1表示在t-1时刻预测生成的字,同时作为当前t时间步的输入来更新当前t时间步的隐藏状态;

摘要模型编码器编码的文本信息h与当前时间步的解码隐藏状态应用注意力机制:

将摘要模型编码器输出向量h进行维度转换后,与解码器的当前时间步隐藏状态相乘,得到注意力分布et

(XI)

(XII)

(XIII)

在公式(XI)-(XIII)中,We为可训练权重向量;对et进行softmax归一化处理,得到注意力向量αt;将注意力向量αt与摘要模型编码器的文本信息hT进行加权求和,得到上下文语境向量ct

文本摘要生成器首先在标注摘要数据上进行预训练,使用预训练好的模型,对输入文本直接获得摘要文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210894574.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top