[发明专利]融合内容和形式多样性的中文问题生成方法和系统有效

申请号：	202210894574.2	申请日：	2022-07-28
公开（公告）号：	CN114970563B	公开（公告）日：	2022-10-25
发明（设计）人：	孙宇清;察胜男	申请（专利权）人：	山东大学
主分类号：	G06F40/35	分类号：	G06F40/35;G06F40/295;G06F40/211;G06N3/04;G06N3/08;G06N5/04
代理公司：	济南竹森知识产权代理事务所(普通合伙) 37270	代理人：	刘宏广
地址：	250100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	融合内容形式多样性中文问题生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合内容和形式多样性的中文问题生成方法，其特征在于，包括：

步骤（1）利用内容选择器对原始文本进行选择得到内容文本，所述内容选择器提出了两种内容选择策略：

一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法；另一种是基于摘要的内容生成方法；

步骤（2）在步骤（1）得到的内容文本上分别进行句子抽取和命名实体的抽取，将抽取后的文段作为问题生成的候选答案；

步骤（3）将原始文本和内容选择器得到的内容文本作为候选上下文集合，和答案抽取出的候选答案文本集合，得到最大可能的生成方法组合，通过问题生成模型得到多样的问题生成数据三元组；

步骤（4）使用智能问答模型作为生成样本过滤器，根据生成数据样本中答案类型的不同设定不同的答案比对方法：

当生成数据样本中答案是实体时，则判断预测答案和生成答案是否相同，即预测答案的起始位置与终止位置与样本答案的相应位置是否相同：若预测答案与生成答案不相同，则认为该数据样本是低质量样本，进行丢弃；

当生成数据样本中的答案是句子时，则判断预测答案文本是否包含在生成答案之中，文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置，预测答案的终止位置应当小于或等于生成答案的终止位置：若不包含在内，则认为该数据样本是低质量样本。

2.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法，其特征在于，在步骤（1）中，所述基于规则的代表性和基于句子间文本差异性的内容抽取方法，包括：

步骤（1-1）基于规则的代表性的内容抽取方法包括：

将原始文本分割成若干单句，采用句子与文本的语义相似度作为句子的代表性得分，score_r(s_i,D)定义为文档D与文档中第i条句子s_i的代表性评分函数：

在公式(I)、(II)中，首先生成s_i,文档D的向量表示；W(s_i,D)表示两个向量间的余弦相似度；按照评分由大到小取代表性评分的前k个句子，作为最终的代表性句子集合M_k；

步骤（1-2）基于句子间文本差异性的内容抽取方法包括：

将原始文本分割成若干单句，某条句子的差异性得分为：该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值；score_d(s_i,D)定义为文档中第i条句子s_i在文档D中的差异性评分函数：

(III)

(IV)

在公式（III）和（IV）中，s_j为文档D中第j条句子，且i≠j，首先生成s_i，s_j的向量表示；W(s_i，s_j）表示两个句向量间的余弦相似度；按照评分由大到小取差异性评分前m个句子，作为最终的差异性句子集合F_m；num为句子集合中句子的总数；

步骤（1-3）对代表性和差异性内容文本标记：

将所述代表性句子集合M_k和差异性句子集合F_m取并集做句子融合，形成融合句子集合；

同时对所述融合句子集合做规则设定排序：

若某句子同时存在于代表性句子集合M_k和差异性句子集合F_m中，则该句子获得优先排序；剩余句子，则按照存在于代表性句子集合M_k中进行次优先排序；仅存在于差异性句子集合F_m中的句子进行最后排序；

最终输出内容记作R_u：

R_u=M_k∪F_m(V)；

步骤（1-4）基于摘要的内容生成方法，采用生成式摘要的方式进行生成内容文本：

使用BiLSTM结构作为摘要模型编码器，将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码，得到文档的向量矩阵，将输入文本记为X_n，则X_n中的第i个字符记作x_i：

（VI）

（VII）

（VIII）

在公式（VI）-（VIII）中，代表当前t时间步从前向后编码的隐藏状态；代表当前t时间步从后向前编码的隐藏状态；h_t是和的拼接结；

所述编码器的输出向量为：h=[h₁,h₂...h_n]（IX）

在公式（IX）中，h为所有时间步隐藏状态进行拼接得到摘要模型编码器的输出；

解码器部分采用单层LSTM网络结果：

（X）

在公式（X）中，s_t表示在当前t时间步上解码器的隐藏状态;y_t-1表示在t-1时刻预测生成的字，同时作为当前t时间步的输入来更新当前t时间步的隐藏状态;

摘要模型编码器编码的文本信息h与当前时间步的解码隐藏状态应用注意力机制：

将摘要模型编码器输出向量h进行维度转换后，与解码器的当前时间步隐藏状态相乘，得到注意力分布e_t：

（XI）

（XII）

（XIII）

在公式（XI）-（XIII）中，W_e为可训练权重向量；对e_t进行softmax归一化处理，得到注意力向量α_t；将注意力向量α_t与摘要模型编码器的文本信息h^T进行加权求和，得到上下文语境向量c_t；

文本摘要生成器首先在标注摘要数据上进行预训练，使用预训练好的模型，对输入文本直接获得摘要文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210894574.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种SMC塑料片材挤出成型设备
下一篇：一种基于链式多路径覆盖的测试方法与系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]融合内容和形式多样性的中文问题生成方法和系统有效

专利文献下载