[发明专利]基于嵌入式和候选子图剪枝的复杂问题知识库问答方法有效
| 申请号: | 202110073070.X | 申请日: | 2021-01-20 |
| 公开(公告)号: | CN112766507B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 朱跃龙;杨晓晴;陆佳民;冯钧;张紫璇 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N5/04;G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06F40/30;G06F40/295;G06F18/241;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 成立珍 |
| 地址: | 210024 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 嵌入式 候选 剪枝 复杂 问题 知识库 问答 方法 | ||
1.基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,其特征在于:提出了基于图上下文编码的复杂问题智能问答模型SPE-QA,包括以下模块:
1)候选子图剪枝模块,包括基于尾部实体的剪枝和基于关系类型的剪枝;其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文,将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练;基于关系类型的剪枝方法通过关系路径类型选择器,只保留候选子图中相关类型的问答路径上下文进行后续操作;所述的候选子图剪枝模块中,包括以下步骤:
2.1)对于基于尾部关系类型的剪枝方法,首先构建关系类型映射文件,将知识库关系进行简单聚类,判断知识库中两种类型是否相关后,保留尾部关系类型相关的PathContext作为候选问答路径上下文,并与问题句构成新的问答数据集,输入到问答句匹配模型中进行训练;
2.2)对于基于关系类型的剪枝方法,将问题和关系词类型作为输入,预测问题中的关系词所属的域类型,然后输出与问题最相关的三种关系类型,在候选子图中只保留相关类型的问答路径上下文路径;为了构建关系类型选择器,首先将不同知识库的关系类型简单聚类成关系的域类型T,然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试,来标记问题的正确问答路径上下文所属的关系域类型;
所述的步骤2.2)具体过程如下:
2.21)在构建基于知识库问题和关系类型匹配的多标签数据集过程中,包含三元组code,question,labels,其中,code表示问题的唯一标识,question表示问题,labels以向量的形式表示,并以一种类似于one-hot编码的形式进行编码,其中每个元素用1或0来表示,表示问题中的关系属于域关系的类型;
2.22)在关系类型选择器的训练过程中,首先用BERT预训练模型在大型语料上进行无监督的训练,然后用预训练的参数,对下游任务进行微调来用于多标签分类任务,模型的全连接层融合了这些特征参数,并将问题标记上相关的一系列域类型,由于每一个关系类型都是独立不相关的,因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率:
然后采用梯度法最小化预测的概率值aj和目标值yj之间的交叉熵:
其中yi=labels,表示问题中的关系属于域关系的类型;
2.23)在构建关系类型选择器之后,首先用这个类型选择器预测问题中的关系词属于的域类型,然后用输出的labels对候选子图进行剪枝,只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系,该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语,以获得候选答案实体,完成整个自动回答的流程;
2)语义匹配模块,将多关系的复杂问答过程转化成短文本匹配过程,即问题句和候选问答路径上下文序列的匹配问题;基于RE2模型,使用BERT预训练模型,对问题句和问答路径上下文的词及位置同时编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110073070.X/1.html,转载请声明来源钻瓜专利网。





