本发明公开了基于多智能体强化学习的异构路口场景交通信号控制方法,涉及交通信号控制技术领域,该方法中,将自适应交通信号控制问题建模为领导者‑追随者马尔可夫博弈,这是一种考虑总体和特殊路口性能的主从式马尔可夫博弈模型,在此基础上,本发明提出了一种多智能体强化学习框架,即Breadth First Sort Hysteretic DQN(BFS‑HDQN),用于学习多个路口和需要特别关注的路口的整体回报优化的协作控制策略。本发明中的交通信号控制方法不仅能保证最优的整体性能,而且在特殊路口也能获得更好的性能。