本发明所解决的技术问题是非独立同分布环境对联邦学习性能影响的问题,提出一种基于深度强化学习的客户端节点选择算法,在每一轮联邦学习通信中,选择有利于全局模型收敛的客户端子集进行模型聚合,用有限的通信轮次达到更高的目标精度;将联邦学习建模为马尔可夫决策过程,通过使用深度强化学习中的Double Deep Q‑Learning算法对智能体的节点选择策略进行训练,从而优化节点选择策略,在每一轮通信中为联邦学习的模型聚合选择最优客户端子集;本发明在非独立同分布的环境中可以有效解决的联邦学习收敛速度慢的问题,减缓数据异构性对联邦学习的负面影响,且不会为客户端造成更多的负担。