[发明专利]基于强化学习的声呐图像目标识别方法在审

申请号：	202210535005.9	申请日：	2022-05-17
公开（公告）号：	CN114842214A	公开（公告）日：	2022-08-02
发明（设计）人：	李勇鹏;姜龙玉;葛张样;张子腾;韩宇	申请（专利权）人：	东南大学
主分类号：	G06V10/44	分类号：	G06V10/44;G06V10/774;G06V10/764;G06V10/82;G06V20/05;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	叶倩
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习声呐图像目标识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于强化学习的声呐图像目标识别方法，其特征在于,包括以下步骤：

S1，将卷积神经网络的层选择过程建模为马尔科夫决策过程：所述卷积神经网络包括特征提取和特征分类两个部分，特征提取处于网络的前端，由卷积层、池化层和残差层构成；特征分类在网络的末尾；强化学习Agent在和环境的不断交互中，通过环境的反馈选择合适的层类型和超参数构成卷积神经网络的特征提取部分，之后连接特征分类部分构成完整的分类卷积神经网络；

S2,定义强化学习Agent的状态空间和动作空间：强化学习过程中Agent的状态空间由卷积神经网络的各种层组成，Agent的动作空间是当前状态下可以后接的层，强化学习Agent的每个状态都被定义为相关层参数的元组，在层定义的状态元组中，限制超参数的范围；

S3，使用强化学习Q-Learning算法让Agent自动构建出一系列的卷积神经网络，该步骤进一步包括：

S31，Agent通过强化学习ε-greedy策略顺序选择层，以ε的概率选择当前状态下，Q值最高的动作，以1-ε的概率随机选取其他动作，其公式如下：

直到达到终止状态，至此可认为选中了一个CNN网络模型；

S32，将步骤S31选中的CNN网络模型在声呐图像数据集上进行训练，将模型在验证集的准确率作为强化学习Q-Learning算法的奖励；

S33，用验证集上的奖励来更新Q值公式，之后根据步骤S31的ε-greedy策略继续步骤S31，直至构建的模型数达到限定值；

S4，从生成的卷积神经网络中选出表现较好的网络，调整参数并迁移到目标检测网络中；

S5，用声呐图像数据集对步骤S4的目标监测网络进行监督式训练，完成声呐图像的目标识别任务。

2.如权利要求1所述的基于强化学习的声呐图像目标识别方法，其特征在于：所述步骤S1中，在卷积神经网络的特征提取部分末尾增加空间金字塔池化层。

3.如权利要求2所述的基于信号差的无线设备瞬态及稳态设备指纹提取与识别方法，其特征在于：所述步骤S2中，在层定义的状态元组中，限制Agent的动作空间，允许Agent在任何节点终止路径，允许层深度为i的状态转换为层深度i+1的状态。

4.如权利要求2或3所述的基于强化学习的声呐图像目标识别方法，其特征在于：所述步骤S4中的调整参数至少包括对学习率、优化器、初始化方法、批大小、权重衰减和训练次数的调整。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210535005.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种下颚带佩戴状态监控方法、装置、设备及存储介质
下一篇：一种地铁区间U型槽端部的防淹结构

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的声呐图像目标识别方法在审

专利文献下载