“康君龙”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果8个，建议您升级VIP下载更多相关专利

[发明专利]矩阵向量乘电路以及循环神经网络硬件加速器-CN201810719332.3有效
发明人：李於彬;康君龙 -专利权人：赛灵思公司
申请日： 2018-07-03 - 公布日： 2022-08-19 - 主分类号： G06F7/544 文献下载
摘要：本发明公开了一种矩阵向量乘电路和循环神经网络硬件加速器。一种矩阵向量乘电路，包括至少一个运算单元组，每组包含多个运算单元；该电路的矩阵输入部分用于使得输入矩阵的各列的元素在每个循环按照时钟周期依次逐个输入给对应运算单元；该电路的向量输入部分用于使得输入向量的各元素按照时钟周期被输入到对应运算单元；该电路的部分和输入部分用于将一个运算单元的计算结果输出给下一个作为其输入；最后一个运算单元的输出数据将被作为新输入向量的元素数据按照时钟周期依次串行传输给向量输入部分。通过使输入数据和输出数据均脉动地流动，本发明的矩阵向量乘电路的布线大大减少，电路结构简洁规整，大大减少了电路设计和实现的复杂性。
矩阵向量电路以及循环神经网络硬件加速器

[发明专利]数据存取方法、装置、硬件加速器、计算设备、存储介质-CN201810260777.X有效
发明人：李於彬;康君龙 -专利权人：赛灵思公司
申请日： 2018-03-27 - 公布日： 2021-08-13 - 主分类号： G06N3/063 文献下载
摘要：本发明公开了一种数据存取方法、装置、硬件加速器、计算设备、存储介质。根据本发明的一种数据存取方法，包括：在输入数据是按特征向量为单位接收和存储的情况下，将第i个输入特征向量存储在B个缓存块中的第i％B个缓存块，此时该第i个输入特征向量的存储地址是该第i％B个缓存块中的上一次存储地址的下一个，这里，B、i都是自然数。实现了卷积核尺寸比较大的卷积神经网络中的高效数据访问。从而节省硬件资源，降低成本和功耗，支持了较高的计算并行度，提高系统性能。
数据存取方法装置硬件加速器计算设备存储介质

[发明专利]用于LSTM网络的硬件加速器-CN201810157774.3有效
发明人： 康君龙;李於彬 -专利权人：赛灵思电子科技（北京）有限公司
申请日： 2018-02-24 - 公布日： 2021-07-30 - 主分类号： G06N3/063 文献下载
摘要：本发明公开了一种用于长短期记忆(LSTM)网络的硬件加速器。LSTM计算模块对T个有序输入进行前向LSTM计算，得到分别对应于所述T个有序输入的T个第一输出，并对所述T个有序输入进行后向LSTM计算，得到分别对应于所述T个有序输入的T个第二输出，其中，T为正整数。第一缓存用于缓存所述第一输出和所述第二输出。组合模块对所述第一缓存中缓存的对应于同一个输入的第一输出和第二输出执行组合运算，以得到对应于所述同一个输入的组合输出。由此，可以提高双向LSTM计算性能，降低响应延时，实现对双向LSTM网络计算的加速效果。
用于 lstm 网络硬件加速器

[发明专利]深度学习softmax分类器的硬件实现电路及其控制方法-CN201711039589.6有效
发明人：张玉;康君龙;谢东亮 -专利权人：赛灵思公司
申请日： 2017-10-30 - 公布日： 2020-12-08 - 主分类号： G06N3/08 文献下载
摘要：本公开提供一种深度学习softmax分类器的硬件实现电路及其控制方法。硬件实现电路(100)包括：接口数据读控制模块(110)，用于从外部存储器中读取计算数据给指数计算模块(120)；指数计算模块(120)，用于并行地进行浮点元素的指数运算；加法树模块(130)，用于进行指数计算模块(120)的运算结果的累加运算；缓存模块(140)，用于缓存指数计算模块(120)的运算结果以及加法树模块(130)的累加运算结果；除法计算模块(150)，用于并行地计算各个浮点元素的指数运算结果与所有浮点元素指数运算结果之和的比值；接口数据写控制模块(160)，用于将除法计算模块(150)的计算结果写入外部存储器。
深度学习 softmax 分类硬件实现电路及其控制方法

[发明专利]一种基于FPGA实现RNN神经网络的硬件加速器及方法-CN201611107809.X有效
发明人： 康君龙;韩松;单羿 -专利权人：赛灵思公司
申请日： 2016-12-05 - 公布日： 2020-07-03 - 主分类号： G06N3/04 文献下载
摘要：本发明提出一种实现循环神经网络(RNN)的方法，所述方法包括步骤：初始化步骤，完成数据的初始化，即，将计算Whxx所需的数据读入FPGA片上内存，包括输入向量x，和输入向量x对应权重矩阵Whx的所有信息；步骤1，计算单元开始计算Whxx，同时将计算Whhx所需的数据读入FPGA片上内存；步骤2，计算单元计算Whhht‑1，其中ht‑1是隐含层对上一个输入向量的激励值，同时将计算下一个Whxx所需的数据读入FPGA片上内存；迭代重复执行上述步骤1和步骤2。本发明另外提出一种用于实现RNN神经网络的装置，包括输入接收单元，用于接收多个输入向量或隐含层激励值向量；多个计算单元PE，每个计算单元包括稀疏矩阵读取单元，运算单元和运算缓存单元；数据组合单元，用于接收从各个计算单元中的缓存单元输出的矩阵运算的结果，并将其组合成一个完整的矩阵运算结果输出至加法器；控制单元，用于对所述多个计算单元进行全局控制。
一种基于 fpga 实现 rnn 神经网络硬件加速器方法

[发明专利]卷积计算单元、计算方法及神经网络计算平台-CN201810837332.3在审
发明人： 康君龙;李於彬;谢东亮 -专利权人：北京深鉴智能科技有限公司
申请日： 2018-07-26 - 公布日： 2020-02-07 - 主分类号： G06N3/04 文献下载
摘要：公开了一种卷积计算单元、计算方法及神经网络计算平台。该单元包括：特征图预处理模块，用于对输入的特征图矩阵d进行B
矩阵点乘操作结果卷积核特征图预处理模块系数矩阵卷积算法卷积计算单元神经网络计算后处理模块预处理结果操作转换计算模块卷积计算转置矩阵乘法固定的引入

[发明专利]高速全连接计算的硬件实现装置与方法-CN201711035020.2在审
发明人： 康君龙;张玉;谢东亮 -专利权人：北京深鉴智能科技有限公司
申请日： 2017-10-30 - 公布日： 2019-05-10 - 主分类号： G06N3/08 文献下载
摘要：本公开提供一种高速全连接计算的硬件实现装置与方法。根据本发明的高速全连接计算的硬件实现装置（200）包括：权重存储模块（210），用于存储用于计算的权重数据，每次存储m组权重数据，直到所有输出通道的权重计算完成；向量存储模块（220），用于存储n个输入向量数据；输出寄存模块（230），用于实现计算结果的输出缓存；核心计算模块（240），用于使得由所述权重存储模块输入的m组权重数据与由所述向量存储模块输入的n个输入向量数据进行相乘，各个相乘结果分别与之前的有效结果相加，并在乘加计算的结果上加上对应的偏置值，将最终计算结果输出到所述输出寄存模块。
存储模块硬件实现装置权重数据存储输出寄存输入向量权重向量相乘核心计算模块权重计算输出缓存输出通道相乘结果有效结果偏置相加输出

[发明专利]一种用于实现稀疏神经网络的装置和方法-CN201610663175.X在审
发明人：谢东亮;康君龙;韩松 -专利权人：北京深鉴科技有限公司
申请日： 2016-08-12 - 公布日： 2017-10-10 - 主分类号： G06N3/04 文献下载
摘要：本发明提出一种稀疏神经网络加速器的实现装置和方法。该装置包括输入接收单元、稀疏矩阵读取单元、M*N个计算单元、控制单元和输出缓存单元。本发明还提出了一种用于该装置的并行计算方法，不仅可以在输入向量维度上做共享，也可以在稀疏神经网络的权值矩阵维度上做共享。本发明提出的装置和方法，大大降低了内存访问量，减少了片上缓存数量，有效地平衡了片上缓存、I/O访问以及计算之间的关系，提高了计算模块性能。
一种用于实现稀疏神经网络装置方法

1
共 8 条