[发明专利]阅读机器人进行阅读理解的答案选择方法及系统有效
申请号: | 201711092170.7 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107818085B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 李茹;郭少茹;张旗;王智强;关勇 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李广 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 阅读 机器人 进行 理解 答案 选择 方法 系统 | ||
1.一种阅读机器人进行阅读理解的答案选择方法,其特征在于,包括:
获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落;
基于已定位的相关段落,采用词袋(bag-of-words,BOW)模型,抽取与选项有最多匹配词数的句子作为证据材料;
分析选项与证据材料语义一致性;
根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项;
基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式;
分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的部分;基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径;基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性;递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性;
所述的定位包含与题干相关的段落的具体方法包括:
采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息;将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法;采用排序算法将问题从全文定位到与题干核心信息相关的段落;
证据材料的获取具体包括:
对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,所述的对句子和选项的意思并无太大作用的字词包括“的”、“了”、“啊”;
基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料;
在选择正确选项时,根据选项与证据材料语义一致性分析结果,从多个选项中选择针对该题干的正确选项,其中,若题干信息为“选择符合文意的一项”,则选择与证据材料语义一致的选项作为正确选项;若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
2.一种阅读机器人进行阅读理解的答案选择系统,其特征在于,包括:
段落定位单元,用于获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落;
证据材料获取单元,用于基于已定位的相关段落,采用词袋(bag-of-words,BOW)模型,抽取与选项有最多匹配词数的句子作为证据材料;
一致性确定单元,用于分析选项与证据材料语义一致性;
答案选取单元,用于根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项;
所述一致性确定单元,包括:
选项、证据材料框架语义依存图生成模块,用于基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式;
一致性结果输出模块,用于分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的部分;基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径;基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性;递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性;
所述段落定位单元包括:
内容相关信息获取模块,用于采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息;
段落定位模块,用于将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法;采用排序算法将问题从全文定位到与题干核心信息相关的段落;
证据材料获取单元包括:
句子分词模块,用于对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,所述的对句子和选项的意思并无太大作用的字词包括“的”、“了”、“啊”;
证据材料确定模块,用于基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料;
所述答案选取单元包括:提干信息分析模块,用于判断题干信息为“选择符合文意的一项”或“选择不符合文意的一项”;输出模块,用于题干信息为“选择符合文意的一项”,则选择与证据材料语义一致的选项作为正确选项;若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711092170.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种融合点评配图的情感分析方法
- 下一篇:一种数字出版物语义标注优化方法