[发明专利]存储器错误隔离技术在审
申请号: | 202110305077.X | 申请日: | 2021-03-17 |
公开(公告)号: | CN113495857A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | J·S·R·埃文斯;N·切鲁库里;J·F·小杜鲁克;S·辛格;V·维亚斯;W·甘地;A·戈帕拉克里希南;M·曼达尔 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06F13/16 | 分类号: | G06F13/16;G06F12/084;G06F9/38;G06F9/54;G06T1/20 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储器 错误 隔离 技术 | ||
使用应用程序编程接口来促进并行计算(诸如CUDA)以检测存储器错误并隔离或迁移并行处理单元上的分区的设备、系统和技术。在至少一个实施例中,在图形处理单元上拦截并处理中断,所述图形处理单元指示一个或更多个分区的存储器错误,以及应用策略将该存储器错误与其他分区隔离。
技术领域
至少一个实施例涉及一种处理资源,所述处理资源用于使用应用程序编程接口来促进并行计算(例如CUDA)来检测存储器错误并隔离或迁移图形处理单元上的分区。例如,至少一个实施例涉及一种处理器或计算系统,所述处理器或计算系统用于使用本文所述的各种新技术在一个或更多个计算分区上拦截并处理来自图形处理单元的中断。
背景技术
物理硬件组件可能被制造为具有缺陷或随着时间的推移而产生缺陷。例如,组成存储器芯片中存储单元的电路可能不再工作,或者可能由于硬件组件之间的串扰而改变值。组件(诸如存储器)中的此类缺陷可能会影响在单个物理服务器上运行的许多虚拟服务器。此外,由一台虚拟服务器引起的错误会影响在单个物理服务器上运行的其他虚拟服务器的运行。
附图说明
图1是根据至少一个实施例的示出分区图形处理单元(GPU)的框图;
图2是根据至少一个实施例的示出用于GPU上的一个或更多个分区的存储器错误处理器的框图;
图3是根据至少一个实施例的示出GPU上的硬件错误处理器的框图;
图4是根据至少一个实施例的示出GPU上的软件错误处理器的框图;
图5是根据至少一个实施例的示出用于GPU上的分区的存储器错误报告的框图;
图6示出了根据至少一个实施例的用于在分区的GPU上处理中断的过程;
图7示出了根据至少一个实施例的用于隔离GPU分区上的存储器错误的过程;
图8示出了根据至少一个实施例的用于在GPU上实现存储器错误策略的过程;
图9示出了根据至少一个实施例的示例性数据中心;
图10示出了根据至少一个实施例的处理系统;
图11示出了根据至少一个实施例的计算机系统;
图12示出了根据至少一个实施例的系统;
图13示出了根据至少一个实施例的示例性集成电路;
图14示出了根据至少一个实施例的计算系统;
图15示出了根据至少一个实施例的APU;
图16示出了根据至少一个实施例的CPU;
图17示出了根据至少一个实施例的示例性加速器集成切片;
图18A-18B示出了根据至少一个实施例的示例性图形处理器;
图19A示出了根据至少一个实施例的图形核心;
图19B示出了根据至少一个实施例的GPGPU;
图20A示出了根据至少一个实施例的并行处理器;
图20B示出了根据至少一个实施例的处理集群;
图20C示出了根据至少一个实施例的图形多处理器;
图21示出了根据至少一个实施例的图形处理器;
图22示出了根据至少一个实施例的处理器;
图23示出了根据至少一个实施例的处理器;
图24示出了根据至少一个实施例的图形处理器核心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110305077.X/2.html,转载请声明来源钻瓜专利网。