[发明专利]控制设备、光刻装置和物品制造方法在审
| 申请号: | 202210902358.8 | 申请日: | 2022-07-29 |
| 公开(公告)号: | CN115685692A | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 清原直树;北直树 | 申请(专利权)人: | 佳能株式会社 |
| 主分类号: | G03F7/20 | 分类号: | G03F7/20 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 汪晶晶 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 控制 设备 光刻 装置 物品 制造 方法 | ||
本公开涉及控制设备、光刻装置和物品制造方法。一种控制待控制对象的控制设备。该设备包括:生成器,被配置为生成用于确定操纵变量的概率分布;以及确定器,被配置为基于由生成器生成的概率分布来确定操纵变量。在操作阶段中,确定器根据概率分布的期望值来确定操纵变量。
技术领域
本发明涉及控制设备、光刻装置和物品制造方法。
背景技术
当通过强化学习来学习用于最大化总奖励的策略时,根据算法的约束和环境的性质,可以选择连续空间和离散空间之一作为动作空间。当选择离散动作空间时,一般使用ε贪婪算法(非专利文献1、专利文献1)、Softmax法(非专利文献1)等作为搜索期间的动作策略。作为操作期间的动作策略,一般使用贪婪算法。
输出用于确定操纵变量的概率分布的控制器的性能可以通过使用其中操纵变量通过根据随机数进行采样来确定的方法进行学习来得以改善。然而,在实际操作中,如果控制变量是像学习中那样使用随机数进行采样来确定的,则随机行为会影响质量保证。因此,通常,继续选择使概率值最大化的操纵变量。另一方面,在继续选择具有最大概率的操纵变量时,与通过使用随机数进行采样来确定操纵变量的情况相比,控制性能可能劣化。
引用列表
专利文献1:日本专利公开No.2020-98538
非专利文献1:Sutton,R.S.,Barto,A.G.:“Reinforcement Learning:AnIntroduction”,MIT Press,Cambridge,MA(1998)
发明内容
本发明提供了一种技术,与在学习期间的控制性能相比,其有利于抑制在操作期间的控制性能的劣化。
本发明的第一方面提供了一种控制设备,该控制设备用于控制待控制对象,该设备包括:生成器,被配置为生成用于确定操纵变量的概率分布;以及确定器,被配置为基于由生成器生成的概率分布来确定操纵变量,其中,在操作阶段中,确定器根据概率分布的期望值来确定操纵变量。
本发明的第二方面提供了一种光刻装置,该光刻装置用于将原件的图案转印到基板,该装置包括:可移动部分;以及如第一方面所限定的控制设备,该控制设备被配置为控制可移动部分。
本发明的第三方面提供了一种物品制造方法,包括:使用如第二方面所限定的光刻装置将原件的图案转印到基板;以及通过处理已转印有图案的基板来获得物品。
根据下面参照附图对示例性实施例的描述,本发明的其他特征将变得清楚。
附图说明
图1是例示根据实施例的系统的配置的图;
图2是示出在将图1所示的系统应用于载物台控制设备的情况下待控制对象的配置示例的图;
图3是示出图2所示的载物台控制设备的更具体配置示例的框图;
图4是例示通过强化学习确定神经网络的参数值的方法的流程图;
图5是示出神经网络的配置示例的图;
图6是例示神经网络补偿器的操作的流程图;
图7是例示概率分布(概率质量函数(probability mass function))的图表;
图8是例示使用逆变换法的采样方法的图;
图9是例示载物台的响应的曲线图;
图10是示出神经网络的另一配置示例的图;
图11是示出载物台控制设备的另一具体配置示例的图;
图12是示出作为光刻装置的示例的曝光装置的配置示例的图;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210902358.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有支持结构的半导体器件
- 下一篇:焊接检查装置、焊接系统及焊接检查方法





