[发明专利]机器学习装置、计算机装置、控制系统以及机器学习方法在审
| 申请号: | 202180012298.6 | 申请日: | 2021-02-01 |
| 公开(公告)号: | CN115066659A | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 佐藤修二 | 申请(专利权)人: | 发那科株式会社 |
| 主分类号: | G05B19/18 | 分类号: | G05B19/18;G05B19/4155;G06N20/00 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;范胜杰 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器 学习 装置 计算机 控制系统 以及 学习方法 | ||
1.一种机器学习装置,其对发行命令的计算机装置进行机器学习,该命令用于访问能够通信地连接的控制装置,其特征在于,
所述机器学习装置具有:
状态数据取得部,其监视用于访问所述控制装置内的数据的命令,并取得状态数据,其中,所述控制装置内的数据是在所述计算机装置上动作的1个以上的应用分别指令的数据,该状态数据至少包含:所述命令的发布时间表、根据所述发布时间表而发布的所述命令的受理时刻及发布时刻;
行为信息输出部,其将行为信息输出到所述计算机装置,该行为信息包含在所述状态数据中包含的所述发布时间表的修正信息;
回报计算部,其根据到所述命令被发布到所述控制装置为止的每个所述命令的延迟时间和发布的全部所述命令的平均发布间隔,计算针对所述行为信息的回报;以及
价值函数更新部,其根据由所述回报计算部计算出的回报,更新与所述状态数据以及所述行为信息相关的价值函数。
2.根据权利要求1所述的机器学习装置,其特征在于,
所述发布时间表的修正信息包含:表示指令了所述命令的进程的优先级的进程优先级、以及使所述命令的发布延迟的延迟系数。
3.根据权利要求1或2所述的机器学习装置,其特征在于,
所述回报计算部根据每个所述命令的所述延迟时间和所述平均发布间隔来计算每个所述命令的评价值,并将计算出的每个所述命令的评价值的平均值作为所述回报。
4.根据权利要求1~3中任一项所述的机器学习装置,其特征在于,
所述机器学习装置还具有:优化行为信息输出部,其根据由所述价值函数更新部更新后的所述价值函数,输出所述价值函数的值为最大的行为信息。
5.根据权利要求1~4中任一项所述的机器学习装置,其特征在于,
所述控制装置是工业机械的控制装置。
6.根据权利要求1~5中任一项所述的机器学习装置,其特征在于,
设置所述机器学习的最大试行次数来进行所述机器学习。
7.一种计算机装置,其特征在于,
该计算机装置具有权利要求1~6中任一项所述的机器学习装置,
通过所述机器学习装置对所述发布时间表进行机器学习。
8.一种控制系统,其特征在于,具有:
权利要求1~6中任一项所述的机器学习装置;以及
计算机装置,其通过所述机器学习装置对所述发布时间表进行机器学习。
9.一种机器学习方法,用于对发行命令的计算机装置进行机器学习,该命令用于访问能够通信地连接的控制装置,其特征在于,
监视用于访问所述控制装置内的数据的命令,并取得状态数据,其中,所述控制装置内的数据是在所述计算机装置上动作的1个以上的应用分别指令的数据,该状态数据至少包含:所述命令的发布时间表、根据所述发布时间表而发布的所述命令的受理时刻及发布时刻,
将行为信息输出到所述计算机装置,该行为信息包含在所述状态数据中包含的所述发布时间表的修正信息,
根据到所述命令被发布到所述控制装置为止的每个所述命令的延迟时间和发布的全部所述命令的平均发布间隔,计算针对所述行为信息的回报,
根据计算出的所述回报,更新与所述状态数据以及所述行为信息相关的价值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于发那科株式会社,未经发那科株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180012298.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于促进凝块形成的栓塞系统
- 下一篇:吸收性物品





