[发明专利]用于减少处理器中的等待时间的曲面细分重新分配在审

专利信息
申请号: 202210127824.X 申请日: 2022-02-11
公开(公告)号: CN115131193A 公开(公告)日: 2022-09-30
发明(设计)人: A·辛格;小亚瑟·亨特;A·斯里瓦斯塔瓦;R·阿加瓦尔;M·乔拉迪亚 申请(专利权)人: 英特尔公司
主分类号: G06T1/40 分类号: G06T1/40;G06T1/60;G06T15/20;G06N3/04;G06N3/08
代理公司: 上海专利商标事务所有限公司 31100 代理人: 陈依心;黄嵩泉
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 公开了一种用于促进曲面细分重新分配以用于减少处理器中的等待时间的装置。装置包括:处理器,用于:为并行互连的几何固定功能单元提供单独的前端和后端,前端用于执行补片剔除和传输,并且后端用于执行来自前端的补片接收和补片曲面细分;提供曲面细分重新分配中央引擎,曲面细分重新分配中央引擎用于使用重新分配总线在后端之间重新分配补片;由曲面细分重新分配中央引擎从前端并行地接收被标记以供分配的补片传输,曲面细分重新分配引擎用于有序地处理补片传输;以及响应于从前端中的一个前端接收到同步屏障分组,由曲面细分重新分配中央引擎将同步屏障分组广播至后端,以使后端中的一个后端在本地处理曲面细分工作。
搜索关键词: 用于 减少 处理器 中的 等待时间 曲面 细分 重新 分配
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202210127824.X/,转载请声明来源钻瓜专利网。

同类专利
  • 用于图像处理的方法和系统-202310464455.8
  • 林钰杰;刘鸿钧;郑博元;邱勇智;张嘉祐;谢政勋;陈蕾;陈立民;汪岱锜 - 联发科技股份有限公司
  • 2023-04-26 - 2023-10-27 - G06T1/40
  • 本公开涉及用于图像处理的方法和系统。一种图像处理系统包括一个或更多个处理器,所述一个或更多个处理器可操作以接收将复合节点添加到图的图应用编程接口(API)调用。该图至少包括复合节点,该复合节点由有向且无环的边连接到其它节点。所述一个或更多个处理器还可操作以在编译时由图编译器通过将所述复合节点迭代地扩展为多个节点来处理所述复合节点,其中各个节点对应于图像处理流水线中的一个操作。所述系统还包括一个或更多个目标装置以执行从各个节点编译的可执行代码,以执行图像处理流水线的操作。该系统还包括用于存储图编译器和可执行代码的存储器。
  • 异构GPU集群中加速神经网络训练的流水线并行方法-202310892762.6
  • 张竞慧;牛耕;金嘉晖;东方;罗军舟 - 东南大学
  • 2023-07-20 - 2023-10-13 - G06T1/40
  • 本发明提供了一种异构GPU集群中加速神经网络训练的流水线并行方法,核心机制主要包含三个部分,分别是深度学习模型刻画、同构GPU模型划分及任务放置与异构GPU模型划分及任务放置。本发明首先针对深度学习应用在GPU训练过程中的资源需求,刻画出使用不同类型的GPU时训练过程中计算量、中间结果通信数量、参数同步量等相应指标,并将其作为模型划分与任务放置的输入。然后根据模型刻画结果和GPU集群的环境,设计基于动态规划的划分算法,实现异构GPU和异构带宽感知的流水线混合并行模型划分与任务放置,目的是最小化划分之后各阶段任务执行时间的最大值,以确保负载均衡,实现深度神经网络的高效分布式训练。
  • 一种基于快行列式的归一化神经网络加速方法-202210294205.X
  • 李金阳 - 湃方科技(苏州)有限责任公司
  • 2022-03-24 - 2023-10-10 - G06T1/40
  • 本发明公开了一种基于快行列式的归一化神经网络加速方法,包括以下步骤:读取用于执行神经网络计算的图形处理器可用的总显存大小,设定可配置级的大小,并基于可配置级的大小来确定拆分工作空间所使用因子的最细粒度;根据总显存大小、可配置级的大小、和最细粒度生成用于确定使卷积执行最快的最优批次尺寸和最优网络层配置的最优化加速求解架构;以最优化加速求解架构中的卷积运算效率边界条件作为适应函数。有益效果:本发明在对神经网络当前层进行加速处理时,能够并行调度当前层的下一层的参数,缩短了神经网络的整体加速时间,提高了神经网络的加速效率。
  • 图像处理装置、成像装置、图像处理方法、程序、以及存储介质-201880040227.5
  • 木村良范 - 佳能株式会社
  • 2018-06-15 - 2023-09-01 - G06T1/40
  • [问题]提供可以使用与多尺度表达信息的使用和多层网络学习兼容的网络结构来执行精确的图像处理的图像处理装置。[解决手段]图像处理装置(100)包括:主单元(102),被配置为使用具有至少两层的第一卷积神经网络将输入图像转换成第一特征量的信息;输入单元(103),被配置为使用第二卷积神经网络将所述输入图像转换成第二特征量的信息;以及输出单元(104),被配置为使用第三卷积神经网络将第三特征量的信息转换成输出图像,所述第三特征量的信息通过将所述第一特征量的信息和所述第二特征量的信息彼此相加来生成。
  • 图形处理模块、图形处理器以及图形处理方法-202210424036.7
  • 顾德明 - 南京砺算科技有限公司
  • 2022-04-22 - 2023-08-11 - G06T1/40
  • 本发明提供了一种图形处理模块、图形处理器以及图形处理方法,所述图形处理方法用于一个主图形处理单元与至少一个子图形处理单元进行多GPU联合任务处理,所述主图形处理单元通过存储单元和连接所述存储单元的交换结构与子图形处理单元以及外部系统交换数据,具体步骤包括:从外部系统接收图形处理任务及资源;分解所述图形处理任务,根据任务流程动态生成子图形处理单元的任务指令;将所述任务指令及相应资源分发给子图形处理单元;接收并同步所述子图形处理单元的运算结果;生成最终任务处理结果并返回给外部系统;本发明实现了一种晶圆级规模设计的多GPU架构图形处理器,进一步提高了图形处理的效率。
  • 对图像数据进行处理的人工智能加速器和集成电路系统-202310486831.3
  • 赵卓然 - 北京地平线信息技术有限公司
  • 2023-04-28 - 2023-08-01 - G06T1/40
  • 本公开实施例公开了一种对图像数据进行处理的人工智能加速器和集成电路系统,其中,人工智能加速器包括:依次连接的输入单元、缓存单元和输出单元,还包括与缓存单元连接的比较单元;输入单元,用于基于预设神经网络计算得出的预测概率值集合中的每个预测概率值,并将预测概率值输入缓存单元;其中,所述预测概率值集合中包括通过预设神经网络对图像数据进行预测得到的多个预测概率值;比较单元,用于对输入到缓存单元中的预测概率值进行比较处理;缓存单元,用于缓存经过比较器比较处理后的多个预测概率值;输出单元,用于通过缓存单元输出目标数量的预测概率值,基于所述目标数量的预测概率值,确定所述预设神经网络的预测结果。
  • 一种基于事件时间触发神经元的光流识别系统-202310482995.9
  • 王高远;付冬梅 - 北京科技大学
  • 2023-05-04 - 2023-08-01 - G06T1/40
  • 本发明公开了一种基于事件时间触发神经元的光流识别系统,涉及光流识别领域,该系统中的线阵亮度传感器用于采集目标区域在设定时段内各个位置点的光照亮度信息,得到多个事件序列;该系统中的事件时间触发神经元包括:延迟传播树突、胞体和轴突;延迟传播树突对事件序列对应的时间序列进行延迟,传输事件序列和权重至胞体;胞体根据各事件序列和对应的权重计算当前处理时刻的胞体电压增加量,从而确定胞体电压,并在胞体电压大于设定阈值时产生冲动,否则将胞体电压衰减设定倍数后进行下一次处理;轴突用于接收到冲动后,则将当前处理时刻作为事件发生时刻输出,从而确定光流速度。本发明解决了计算量大、功耗大、成本高的问题。
  • DNN缩简装置以及车载运算装置-202180073639.0
  • 小松咲绘;伊藤浩朗 - 日立安斯泰莫株式会社
  • 2021-09-01 - 2023-07-28 - G06T1/40
  • 本发明的DNN缩简装置(100)向使用内部存储器进行DNN运算的DNN运算部(300)输出缩简后的DNN。DNN缩简装置(100)具备输出数据大小测量部(110)和数据缩简部(120)。输出数据大小测量部(110)根据DNN网络信息来测量DNN的层中的输出数据大小。数据缩简部(120)根据输出数据大小以及内部存储器的存储容量来设定DNN的层的缩简数。
  • 一种基于烟叶图像分割的加速处理方法及系统-202310437040.1
  • 徐密;石超;薛辰;彭云发 - 上海创和亿电子科技发展有限公司
  • 2023-04-23 - 2023-07-14 - G06T1/40
  • 本发明涉及计算机视觉技术领域,具体涉及一种基于烟叶图像分割的加速处理方法及系统。其中一种基于烟叶图像分割的加速处理方法,包括:于获取到与分割网络模型结构匹配的分割参数和基础神经网络算子状态下形成神经网络GPU引擎文件;读取采集图像,对所述采集图像做归一化处理,并于归一化处理完成后加载所述神经网络GPU引擎文件以形成一与所述采集图像匹配的推算结果;根据所述推算结果,从GPU单元传输到CPU单元上并通过指针映射到输出图像以形成处理结果。
  • 图像卷积方法、装置、系统、计算机设备及存储介质-202310213475.8
  • 裴京;王松;马骋;李博文;徐海峥 - 清华大学
  • 2023-02-28 - 2023-06-06 - G06T1/40
  • 本申请涉及一种图像卷积方法、装置、系统、计算机设备和存储介质。所述方法包括:在第i轮卷积处理中,接收数据处理器在第i轮卷积处理中发送的第j个读地址生成请求;根据预设的读写模式,和在第i轮卷积处理中生成的第j‑1个读地址,生成第j个读地址;将第j个读地址发送至存储器;接收数据处理器发送的第j个写地址生成请求;将第j个读地址作为第j个写地址,并将第j个写地址发送至存储器。采用本方法能够使得数据处理器可以读取任意地址的数据作为偏置数据。
  • 样本分布知情去噪和渲染-202210846158.5
  • T·兹尔;S·Y·金 - 英特尔公司
  • 2022-07-19 - 2023-05-09 - G06T1/40
  • 提供了样本分布知情去噪和渲染。提供了图形处理器,其包括被配置为进行以下操作的电路:在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合。神经网络模型被配置为基于根据当前帧数据内样本的样本分布数据计算的可靠性度量来生成去噪、超采样和抗锯齿的输出图像。
  • 基于神经辐射场实现高质量新视图合成的FPGA加速器-202211135459.3
  • 王圆方;王堃 - 复旦大学
  • 2022-09-19 - 2023-04-14 - G06T1/40
  • 本发明公开了一种基于神经辐射场实现高质量新视图合成的FPGA加速器;其包括FPGA和三个运算模块:位置编码模块、MLP模块、光线步进模块,运算模块部署在FPGA上;其中,MLP模块拆分出两级流水线:前一级流水线得出体密度和隐藏层,后一级流水线得出颜色信息;前一级流水线有8层全连接层,全连接层之间有ReLu激活函数,坐标信号通过前一级流水线后得到体密度;后一级流水线有两层全连接层,输入隐藏层信息和视角方向,再经过sigmoid激活函数,得到颜色信息。实验结果表明,本发明设计的硬件架构能加速神经辐射场计算,与在GPU上运行同样的算法相比,运行功耗远远小于GPU,生成的图像质量与GPU相近。
  • 图像处理方法、装置、终端设备及存储介质-202211441673.1
  • 吴义孝 - 哲库科技(上海)有限公司
  • 2022-11-17 - 2023-04-07 - G06T1/40
  • 本申请实施例公开一种图像处理方法、装置、终端设备及存储介质,其中所述方法包括:确定插值图像中每个待插值点的坐标,所述插值图像用于神经网络处理;根据每个所述待插值点的坐标,获取每个所述待插值点对应在目标条带中的采样点数据,所述目标条带为原始图像包括的多个图像条带中的任一个;对每个所述待插值点对应的采样点数据进行插值,得到所述插值图像,所述插值图像包括每个所述待插值点的像素值。采用本申请实施例,能解决现有技术中存在的图像处理效率较低的问题。
  • 景深信息估算方法和装置-201780088846.7
  • 虞晶怡 - 上海科技大学
  • 2017-06-02 - 2023-04-04 - G06T1/40
  • 公开了一种从叠焦图像中提取深度信息的方法和装置。该方法可包括:以焦点卷积神经网络(焦点网络)处理所述叠焦图像,以生成多幅特征图;使该多幅特征图相叠;以及通过多个第一卷积层融合所述多幅特征图,以获得深度图。所述焦点网络可包括多个分支,每一所述分支均包括以不同步幅对所述叠焦图像进行降采样的降采样卷积层和对该叠焦图像进行升采样的去卷积层。
  • 用于使用变换器块来执行密集预测的方法和设备-202211024731.0
  • R·兰夫特尔;A·博奇科夫斯基;V·科尔通 - 英特尔公司
  • 2022-08-25 - 2023-03-28 - G06T1/40
  • 本文所公开的方法、设备、系统和制品使用图像处理系统的重组件级处和编码器级处的变换器来执行输入图像的密集预测。所公开的设备包括编码器,其具有将输入图像转换成表示从输入图像所提取的特征的多个标记的嵌入器。采用可学习位置嵌入来嵌入所述标记。编码器还包括一个或多个变换器,所述变换器配置在级序列中以将标记彼此相关。所述设备进一步包括解码器,所述解码器包括将标记组装为特征表示的重组器的一个或多个、组合特征表示以生成最终特征表示的融合块的一个或多个以及基于最终特征表示并且基于输出任务来生成密集预测的输出头端。
  • 一种粗粒度的图像神经网络加速器指令集架构方法及装置-202211325253.7
  • 朱国权;马德;凡军海;杨方超;陆启明;金孝飞;孙世春;胡有能;潘纲 - 之江实验室;浙江大学
  • 2022-10-27 - 2023-03-24 - G06T1/40
  • 本发明公开了一种粗粒度的图像神经网络加速器指令集架构方法及装置,该方法通过分析神经网络中卷积层计算需要的参数;通过分析神经网络中装载/存储操作、池化层计算、上采样层计算、加、减、转置和复制运算需要的参数;根据处理下一帧图像需要,加入跳转需要的参数,构建一种粗粒度的神经网络加速器指令集架构。与细粒度指令集相比精度不受影响,减少了实现神经网络推理的代码量,代码更加紧凑;该装置的各个模块相对独立,计算模块通过简单总线连接到存储模块,可以有效缩短神经网络加速器的设计过程;该装置的配套编译器开发难度降低,减短了最终产品的上市时间,降低了产品的开发成本。
  • 图像和数据分析模型兼容性调节方法-202180040431.9
  • 史宗·詹姆斯·李;秀树·佐佐木 - 莱卡微系统CMS有限责任公司
  • 2021-05-31 - 2023-03-14 - G06T1/40
  • 一种用于成像应用的计算机化的模型兼容性调节方法首先由计算部件使用至少一个图像X和目标域B图像分析来执行目标域B应用以生成用于X的目标域B应用输出。该方法然后由计算部件应用参考域A应用以生成用于X的参考域A应用输出。该方法还执行兼容性评估以生成用于X的至少一个兼容性结果。此外,该方法检查用于X的兼容性结果,并且如果检查输出为不兼容,那么该方法执行在线校正以生成用于X的经校正的应用输出。
  • 非抽取的图像处理方法及装置-202180001637.0
  • 那彦波;卢运华 - 京东方科技集团股份有限公司
  • 2021-06-25 - 2023-03-03 - G06T1/40
  • 本公开提供一种非抽取的图像处理方法及装置,该非抽取的图像处理方法包括:获取待处理图像;将待处理图像输入至图像处理网络,得到输出图像以输出,输出图像的分辨率与待处理图像的分辨率相同;其中,图像处理网络包括:分析模块、合成模块和至少一个处理模块;将待处理图像输入至图像处理网络,得到输出图像以输出包括:将待处理图像输入至分析模块进行特征分析后输出特征张量图像;将特征张量图像输入至处理模块进行处理后输出处理后的特征张量图像,处理模块输出的特征张量图像的分辨率与待处理图像的分辨率相同;通过合成模块将至少一个处理模块输出的特征张量图像进行合成后得到输出图像。
  • 一种低性能终端上运行神经网络的方法及装置-202211506281.9
  • 王恒;周平;晏利平;胡海 - 贵阳朗玛信息技术股份有限公司
  • 2022-11-29 - 2023-03-03 - G06T1/40
  • 本申请提供一种低性能终端上运行神经网络的方法,包括:初始化,建立神经网络推理模型数据;确定在低性能设备上第一时间值,确定神经网络处理视频帧帧率及第二时间值;确定创建线程数,根据所述第一时间值和所述第二时间值由计算公式确定创建线程数;读入模型文件,建立计算节点列表,根据节点列表数据建立对应线程绑定;第一线程读取图像数据完成下采样特征提取操作,获取下采样结果,发送所述下采样结果到第二线程;第二线程完成上采样数据操作,获取上采样结果,发送所述上采样结果到第三线程;第三线程根据所述上采样结果完成图像改善操作。本发明将神经网络推理过程按功能模块拆分成多个子流程,改善了现有技术的神经网络执行时间。
  • 图像处理方法和系统-202210898022.9
  • M·诺维科夫;D·汉威尔;A·L·L·戈麦斯 - ARM有限公司
  • 2022-07-28 - 2023-02-07 - G06T1/40
  • 本发明公开了一种图像处理方法,该图像处理方法包括获得图像数据。该图像数据包括多个图像数据值。该图像处理方法还包括处理该图像数据,从而生成输出数据。处理该图像数据包括使用包括多个系数的内核对该多个图像数据值应用卷积运算。应用该卷积运算包括获得该多个图像数据值中分别与该多个系数中各自具有公共系数值的系数对应的图像数据值的总和。应用该卷积运算还包括将该总和乘以该公共系数值。
  • 神经网络支持的相机图像或视频处理流水线-202180038197.6
  • 凯文·戈登;科林·达莫尔;马丁·汉弗莱斯 - 光谱OPTIX 有限公司
  • 2021-04-22 - 2023-02-03 - G06T1/40
  • 包括静物相机或视频相机的图像处理流水线包括第一神经网络,该第一神经网络被布置为处理和提供用于图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个的基于神经网络的结果。第二神经网络被布置为接收神经网络结果并进一步提供图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个,其中第一和第二神经网络中的至少一个在由静物相机或视频相机支持的本地处理器上生成数据。
  • 一种低分辨率细胞图像的神经网络结构及加速电路-201910095424.3
  • 余宁梅;田典;王永超 - 西安理工大学
  • 2019-01-31 - 2022-11-29 - G06T1/40
  • 低分辨率细胞图像的神经网络结构,包括:第一层、第二层包含卷积和池化运算,卷积尺寸为3x3,池化尺寸为2x2;第三层、第四层包含卷积和池化运算,卷积尺寸为3x3,池化尺寸为2x2;第五层、第六层包含反池化运算和卷积运算,卷积尺寸为3x3,反池化尺寸为2x2;第七层包含反池化运算和卷积运算,卷积尺寸为3x3,反池化尺寸为2x2;第八层包含反卷积运算,卷积尺寸为1x1;用于低分辨率图像边沿分割方法的加速电路,CPU连接主存单元、特征数据读取单元、卷积核数据读取单元、乘加阵列单元、累加缓存单元、激活函数运算单元、反池化运算单元、池化运算单元、通路选择单元,读取主存储器的网络结构参数对电路进行总体配置;具有算法设计简单高效,加速电路运行功耗低的特点。
  • 用于减少处理器中的等待时间的曲面细分重新分配-202210127824.X
  • A·辛格;小亚瑟·亨特;A·斯里瓦斯塔瓦;R·阿加瓦尔;M·乔拉迪亚 - 英特尔公司
  • 2022-02-11 - 2022-09-30 - G06T1/40
  • 公开了一种用于促进曲面细分重新分配以用于减少处理器中的等待时间的装置。装置包括:处理器,用于:为并行互连的几何固定功能单元提供单独的前端和后端,前端用于执行补片剔除和传输,并且后端用于执行来自前端的补片接收和补片曲面细分;提供曲面细分重新分配中央引擎,曲面细分重新分配中央引擎用于使用重新分配总线在后端之间重新分配补片;由曲面细分重新分配中央引擎从前端并行地接收被标记以供分配的补片传输,曲面细分重新分配引擎用于有序地处理补片传输;以及响应于从前端中的一个前端接收到同步屏障分组,由曲面细分重新分配中央引擎将同步屏障分组广播至后端,以使后端中的一个后端在本地处理曲面细分工作。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top