[发明专利]基于单词重要性加权的问题生成方法有效
申请号: | 202110454046.0 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113128206B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 毛震东;张勇东;于尊瑞 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F16/33 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 单词 重要性 加权 问题 生成 方法 | ||
1.一种基于单词重要性加权的问题生成方法,其特征在于,包括:
训练阶段:通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量;同时,对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵;将文本段落及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件;
测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。
2.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度以及重要程度排序向量包括:
统计整个数据集中所有文本段落中每个单词出现的频率,将所有单词按出现的频率降序排序,所得序列向量记为S1;
每一文本段落,统计其中每个单词出现的频率,并按频率按出现的降序排序,所得序列向量记为S2;
对于每一文本段落,比较其中每个单词在序列向量在S1和S2中的排名,将其在序列向量S2中的排名和其在序列向量S1中的排名作差,得到单词的重要程度D(Ti);之后,将文本段落中各单词按照重要程度降序排序,得到重要程度排序向量ΔS,并以此可以确定各单词在重要程度排序向量中的位置;公式表示为:
D(Ti)=S2(Ti)-S1(Ti)
ΔS=sort(D(Ti)),i=1,...,LT
其中,S2(Ti)表示文本段落中第i个单词Ti在序列向量S2中的排名,S1(Ti)表示文本段落中第i个单词Ti在序列向量S1中的排名,LT为文本段落的长度,sort(.)为排序函数。
3.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵的步骤包括:
提取文本段落中包含答案的句子,并构建单向树:单向树中每个节点表示一个单词,答案中所包含的单词作为根节点词语,两个节点之间的连接表示两个单词之间的单向依存关系;所述答案为文本段落中的连续文本;
在得到的单词之间的单向依存关系基础上,对每个单向关系均添加一个反向的关系,形成双向关系的树结构;
最后,遍历整个双向关系的树结构,保留其他单词到答案词的路径上的依存关系,而删除答案词到其他单词的路径上的依存关系,剩余的单向关系作为最终的相对关系,并根据最终的相对关系构建相对关系矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454046.0/1.html,转载请声明来源钻瓜专利网。