[发明专利]阅读理解模型的训练方法及装置、阅读理解方法及装置有效
申请号: | 202111111031.0 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113792121B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 潘璋;李长亮;李小龙 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F18/214 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 阅读 理解 模型 训练 方法 装置 | ||
1.一种阅读理解模型的训练方法,其特征在于,所述方法包括:
获取训练数据,其中,所述训练数据包括样本文本片段、样本问题和样本答案;
通过阅读理解模型的图构建网络层,基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,以及基于所述样本问题中词单元之间的依存关系构建初始第四图网络;
基于所述初始第三图网络和所述样本答案之间的关联关系构建所述样本文本片段和所述样本答案的初始第一图网络,以及基于所述初始第四图网络和所述样本答案之间的关联关系构建所述样本问题和所述样本答案的初始第二图网络;
基于所述初始第一图网络和所述初始第二图网络对所述阅读理解模型进行训练,直至达到训练停止条件。
2.如权利要求1所述的阅读理解模型的训练方法,其特征在于,基于所述初始第一图网络和所述初始第二图网络对所述阅读理解模型进行训练,包括:
将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;
将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;
基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。
3.如权利要求2所述的阅读理解模型的训练方法,其特征在于,所述文本处理层包括特征提取层和注意力层;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络,包括:
将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组;
将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。
4.如权利要求3所述的阅读理解模型的训练方法,其特征在于,将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组,包括:
对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;
对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;
对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。
5.如权利要求3或4所述的方法,其特征在于,所述特征提取层采用Bert模型的结构。
6.如权利要求3或4所述的方法,其特征在于,所述注意力层采用Bert模型的注意力层的结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111111031.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种B超检查床
- 下一篇:安全库存的确定方法和装置