[发明专利]一种环境辨别方法、系统、设备及存储介质有效

申请号：	202110437611.2	申请日：	2021-04-22
公开（公告）号：	CN113128415B	公开（公告）日：	2023-09-29
发明（设计）人：	沈奥;韩知渊;卫星;赵冲;陆阳;葛久松;帅竞贤;康旭;侯宝华;李航	申请（专利权）人：	合肥工业大学
主分类号：	G06V20/10	分类号：	G06V20/10;G06V10/44;G06V10/764;G06V10/80;G06F16/35;G06N3/048;G06N3/08
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	林凡燕
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种环境辨别方法系统设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种环境辨别方法、系统、设备及存储介质，涉及视频问答技术领域，环境辨别方法包括：在采集到环境问题时，实时采集一预设时长的环境视频；根据环境视频中每一帧的环境图像，得到环境图像特征，并提取环境问题的语义特征，得到问题文本特征；将环境图像特征和问题文本特征进行加权融合，得到融合特征；将融合特征输入环境辨别模型，环境辨别模型根据融合特征，采用对应的激活函数和损失函数，得到预测答案。本发明能够在盲人提出问题时，及时的进行环境的辨别和反馈，使得具有视觉障碍的人群能感知到环境信息；且在交互技术中应用了视频问答技术，使得环境辨别的准确度大大提高，输出的辨别结果与实际情况更符合。

技术领域

本发明涉及视频问答技术领域，特别是涉及一种环境辨别方法、系统、设备及存储介质。

背景技术

根据世界卫生组织调查统计数据显示，中国约有1730万盲人，占整个世界盲人数量的20％，是目前世界上盲人最多的国家。然而，据调查显示，中国的盲人之中，每天外出的仅占了27％；由于视觉障碍，盲人群体在日常生活和出行中面临了诸多不便，无法辨别方向、易被障碍物撞到等都是限制盲人出门的原因，在现有条件下，盲人很难全面、便捷的进行场景感知。

智能化手段作为辅助盲人进行环境信息交互的工具，得到了越来越多的关注，近些年来陆续提出的注意力机制使得深度学习方法在环境辨别过程中有了更好的表现，然而，在具体的环境辨别场景中，受图片中的目标特征模糊等问题影响，现有的注意力机制输出的预测答案往往与真实答案不符；而视频问答就能很好的解决这个问题，视频问答是一种涉及计算机视觉和自然语言处理的学习任务，能够全方位体现目标特征，采用视频问答的环境辨别方法以一个视频和一个自然语言问题作为输入，以一个自然语言答案作为输出，从而帮助盲人进行环境的辨别，换言之，基于视频问答的环境辨别方法即是对于给定的视频进行问答深度学习；深度学习作为视觉任务和自然语言处理任务的重要驱动力，通过卷积神经网络提取视觉特征、循环神经网络提取文本特征，从而得出最终的辨别结果。

综上，现有技术中的环境辨别方法存在无法全方位体现目标特征的技术问题。

发明内容

鉴于以上现有技术的缺点，本发明的目的在于提供一种环境辨别方法、系统、设备及存储介质，用于解决现有技术中环境辨别方法存在无法全方位体现目标特征的技术问题。

为实现上述目的及其他相关目的，本发明提供一种环境辨别方法，其中，包括：

在采集到环境问题时，实时采集一预设时长的环境视频；

根据所述环境视频中每一帧的环境图像，处理得到环境图像特征，并提取所述环境问题的语义特征，处理得到问题文本特征；

将所述环境图像特征和所述问题文本特征进行加权融合，得到融合特征；

将所述融合特征作为环境辨别模型的输入，所述环境辨别模型根据所述融合特征，采用对应的激活函数和损失函数，处理得到预测答案。

于本发明的一实施方式中，所述环境问题包括多分类问题、多标签问题和回归问题中的至少一种。

于本发明的一实施方式中，所述根据所述环境视频中每一帧的环境图像，处理得到环境图像特征的步骤包括：

根据所述环境视频中每一帧的环境图像，处理得到环境图像动态特征和环境图像静态特征；

采用如下公式将所述环境图像动态特征和所述环境图像静态特征进行拼接，以得到所述环境图像特征：