[发明专利]基于深度学习和多模态数值推理的几何题解答方法及模型在审

申请号：	202110982368.2	申请日：	2021-08-25
公开（公告）号：	CN113672716A	公开（公告）日：	2021-11-19
发明（设计）人：	梁小丹;李橦;李奇文;陈嘉奇	申请（专利权）人：	中山大学·深圳;中山大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F40/30;G06N3/04;G06N3/08;G06N5/04
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郭浩辉;许羽冬
地址：	518107 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习多模态数值推理几何题解方法模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习和多模态数值推理的几何题解答方法及文本和图像双模态联合的神经网络模型，所述方法包括：分别获取关于题目内容的文本信息与图像信息；将所述文本信息编码成对应的文本隐藏状态得到文本语义，以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义；融合与对齐所述文本语义和所述视觉语义得到解答程序；按照所述解答程序的运算方式计算解答结果。本发明不但可以增加解答准确率，又可以提高处理的效率，以实现一种具有良好正确率、实用性强、且能通过深度学习自主生成答案的代码序列的技术。

技术领域

本发明涉及智能教育的技术领域，尤其涉及一种基于深度学习和多模态数值推理的几何题解答方法及文本和图像双模态联合的神经网络模型。

背景技术

随着人工智能的发展和普及，人工智能已应用至各行各业中，其中一个应用领域是智能教育。

目前其中一种最常用的应用是智能解答，其操作方式是用户拍摄相应的题目图片，通过识别图片中的题目内容，基于题目内容在通过海量题目构建的大题库中搜索，从而找到相应的解答答案。

但目前常用的方式有如下技术问题：由于涉及的题目众多，而各个题目只要改变一下参数或数据，其解答方式又会发生变化，从而衍生出更多答案，若仅仅通过识别图像进行答案搜索，只能从大量答案中筛选得到单一用户输入的答案，不利于学生延伸学习，且需要处理数据的数量大，增加处理耗时，降低处理效率，而且若题目相类似，容易出现误筛选的情况，降低筛选的准确率，影响用户的使用体验。

发明内容

本发明提出一种基于深度学习和多模态数值推理的几何题解答方法及文本和图像双模态联合的神经网络模型，所述方法可以识别题目语义，基于题目语义进行自主的推理与解答，既可以增加解答准确率，又可以提高处理的效率。

本发明实施例的第一方面提供了一种基于深度学习和多模态数值推理的几何题解答方法，所述方法应用于文本和图像双模态联合的神经网络模型，所述方法包括：

分别获取关于题目内容的文本信息与图像信息；

将所述文本信息编码成对应的文本隐藏状态得到文本语义，以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义；

融合与对齐所述文本语义和所述视觉语义得到解答程序；

按照所述解答程序的运算方式计算解答结果。

在第一方面的一种可能的实现方式中，所述融合与对齐所述文本语义和所述视觉语义得到解答程序，包括：

分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义；

使用深度学习中的attention机制对齐所述编码文本语义和所述编码视觉语义得到对齐语义数据；

将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量，并利用所述多峰特征向量构建解答程序。

在第一方面的一种可能的实现方式中，所述按照所述解答程序的运算方式计算解答结果，包括：