本发明提出一种基于强化学习的工作排程优化方法,旨在通过考虑员工实时疲劳程度,优化员工工作排程,进而缩短最大完工时间。首先,分析员工工作与休息状态下的效率变化曲线,构建工作‑休息排程的数学模型,将员工作业流程建立为马尔可夫决策过程;其次,基于SAC(Soft Actor Critic)算法设计智能体决策框架,实时调整员工工作与休息时长,以最大限度提高员工平均工作效率;此外,设计工作量快速适应机制,仅通过少量迁移训练,实现快速适应不同任务目标。仿真结果表明本发明能够优化员工工作排程方案,缩短最大完工时间,同时在工作量任务较大的情况下,可得到更好的优化效果,工作量快速适应机制使模型可以更灵活的应用于动态场景中。