[发明专利]一种文本检索模型的训练方法及装置在审

专利信息
申请号: 202211699919.5 申请日: 2022-12-28
公开(公告)号: CN115841144A 公开(公告)日: 2023-03-24
发明(设计)人: 暴宇健;董辉 申请(专利权)人: 北京龙智数科科技服务有限公司
主分类号: G06N3/08 分类号: G06N3/08;G06F16/335
代理公司: 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 代理人: 陈美君
地址: 100020 北京市朝*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本公开涉及人工智能技术领域,提供了一种文本检索模型的训练方法、装置、计算机设备及计算机可读存储介质。该方法利用每组训练文本样本中的一样本查询文本以及所述样本查询文本对应的真实文章标题,对训练文本样本进行分类,甄别出不同的样本类型,以便可以根据不同的样本类型设置不同的损失函数权重值,有效改善不同样本类型的训练文本样本的训练权重(即损失函数权重值)分布,从而让文本检索模型的训练过程更为充分,可以提升了文本检索模型的训练效率和效果,进而提升文本检索模型的性能,进一步提高实际业务场景中文本检索模型的文本检索效果(比如提高文本检索模型的文本检索结果的精准度)。
搜索关键词: 一种 文本 检索 模型 训练 方法 装置
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京龙智数科科技服务有限公司,未经北京龙智数科科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202211699919.5/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于神经网络模型的数据处理方法-202310984872.5
  • 许建琼;汪少祖;黄胜利;朱新霞 - 西昌学院
  • 2023-08-07 - 2023-10-27 - G06N3/08
  • 本发明公开了一种基于神经网络模型的数据处理方法,属于数据处理技术领域。一种基于神经网络模型的数据处理方法,包括以下步骤:建立神经网络模型,根据获得的虚拟图像数据,形成用于训练所述神经网络模型的训练集;其中,所述训练集中包括有按照训练难度划分的多个训练子集,各图像数据属于其中一个训练子集,所述图像数据所属于的训练子集是基于其图像数据的完整性或图像数据的损失值确定的,所述图像数据的数据完整性与所述图像数据的训练难度负相关,所述图像数据的损失值与所述图像数据的训练难度正相关。本发明通过对训练集进行数据增强处理可以增加训练的数据量,从而提高模型的泛化能力,提高了的神经网络模型的训练质量。
  • 路段生成模型的训练方法、路段生成方法及装置-202310585423.3
  • 李世迪 - 腾讯科技(深圳)有限公司
  • 2023-05-22 - 2023-10-27 - G06N3/08
  • 本申请提供了一种路段生成模型的训练方法、路段生成方法及装置,涉及人工智能技术领域。本申请涉及一种包括路段编码器和路段生成器的路段生成模型,在训练过程中,先固定路段编码器的网络参数,对路段生成器的网络参数进行更新,接着,固定路段生成器的网络参数,对路段编码器的网络参数进行更新。由于路段生成器和路段编码器能够生成大量数据,因此整个训练过程不依赖于样本路段的数量,从而无需担心因样本路段数量不足而引起的模型过拟合现象,训练得到的路段生成模型能够快速生成与样本路段相似的新路段,提升了路段生成效率。
  • 伪造多媒体检测模型的训练方法、装置和计算设备-202211619700.X
  • 陈燊;孙智敏;曹隽逸;姚太平;邓新哲;丁守鸿 - 腾讯科技(深圳)有限公司
  • 2022-12-16 - 2023-10-27 - G06N3/08
  • 提供了一种伪造多媒体检测模型的训练方法、装置和计算设备,包括:获取训练样本集,所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本;利用所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型;基于所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签;以及利用更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型,所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。通过这种多阶段学习训练而获得的伪造多媒体检测模型可以更加广泛和准确地检测和识别伪造多媒体的类别。
  • 模型自学习迭代方法、装置、设备及介质-202210995354.9
  • 朱一珍;陈雅娟;陈智扬;张晓川;邓逸斌;麦健 - 中国移动通信集团广东有限公司;中国移动通信集团有限公司
  • 2022-08-18 - 2023-10-27 - G06N3/08
  • 本发明提供一种模型自学习迭代方法、装置、设备及介质,方法包括:获取预测诈骗号码中实际被通报的实际诈骗号码数、号码关停后的投诉用户数和号码关停后的复通号码数;将所述实际诈骗号码数、所述投诉用户数和所述复通号码数输入至预先构建的模型重优化函数中,得到模型重优化值;若所述模型重优化参数值小于预设阈值,则触发自学习迭代优化流程,以更新目标诈骗电话号码识别模型;其中,所述预测诈骗号码是基于目标诈骗电话号码识别模型得到的。本发明通过不断自学习的方式来迭代优化模型,不断适应日期变化的诈骗手段,从而解决现有的诈骗号码识别技术准确率低的缺陷,实现提升诈骗号码识别准确率。
  • 基于神经网络模型的训练方法、推荐方法、装置、设备-202310113748.1
  • 陈昊 - 腾讯科技(深圳)有限公司
  • 2023-01-30 - 2023-10-27 - G06N3/08
  • 本申请提供了一种基于神经网络模型的训练方法、基于神经网络模型的信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品;涉及人工智能技术;方法包括:获取训练样本数据;通过多个教师模型对训练样本数据进行特征提取处理,得到每个教师模型输出的教师嵌入向量;通过多个学生模型对训练样本数据进行特征提取处理,得到每个学生模型输出的学生嵌入向量;其中,多个教师模型的模型结构相互独立、且每个教师模型对应一个预测任务,多个学生模型的部分模型结构共享、且每个学生模型对应一个预测任务;基于教师嵌入向量以及学生嵌入向量,对多个教师模型以及多个学生模型进行蒸馏训练处理,得到训练好的多个学生模型。
  • 神经网络训练方法,以及推荐媒体内容的方法-202211542043.3
  • 吴航 - 腾讯科技(深圳)有限公司
  • 2022-12-02 - 2023-10-27 - G06N3/08
  • 本申请实施例公开神经网络训练方法,以及推荐媒体内容的方法,该方法可以应用于人工智能领域。该训练方法设计了全新的神经网络的模型结构,该模型结构包括第一网络和第二网络,第一网络与第二网络串联,第一网络用于学习交叉特征,第二网络用于基于交叉特征预测媒体内容对应的预设操作发生概率。第一网络包括深度交叉网络和至少一个第一门控网络,深度交叉网络包括多个网络层,第一门控网络用于对与该第一门控网络连接的网络层的输出值进行放缩。这一模型结构使得该神经网络的训练过程中,可以通过设置门控网络精准控制交叉特征的传递,使得神经网络可以更好地对交叉特征进行学习,提升神经网络对于媒体内容关联的预设操作的预测能力。
  • 深度神经网络训练方法以及媒体内容推荐方法-202211568256.3
  • 吴航 - 腾讯科技(深圳)有限公司
  • 2022-12-08 - 2023-10-27 - G06N3/08
  • 本申请实施例公开深度神经网络训练方法以及媒体内容推荐方法,该方法可以应用于人工智能领域。该训练方法设计了全新的深度神经网络的模型结构,该模型结构是一种串行的深度较深的神经网络。主干包括顺序连接的交叉网络、特征提取网络和拟合网络,交叉网络、特征提取网络可能都具备较高的深度,设置了交叉网络,其用于学习交叉特征,特征提取网络用于深度提取交叉特征中的特征以得到交叉目标特征,并最终由拟合网络拟合得到转化发生概率,神经网络整体深度是较深的,从而有利于将特征更好地交叉起来,同时保留挖掘深层信息的能力。并且,本申请实施例还设计了门控网络传递深层特征信息,从而让神经网络更好地学习不同特征的信息,提升预测能力。
  • 模型训练方法、以及推荐媒体内容的方法-202211589362.X
  • 吴航 - 腾讯科技(深圳)有限公司
  • 2022-12-09 - 2023-10-27 - G06N3/08
  • 本申请实施例公开模型训练方法、以及推荐媒体内容的方法,该方法可以应用于人工智能领域。该训练方法设计了全新的模型结构,包括特征筛选网络、第一预测网络和所述第二预测网络,特征筛选网络对输入模型的信息进行有效筛选,第一预测网络根据有效筛选结果来预测媒体内容对应的预设操作发生概率,第二预测网络基于共现信息预测媒体内容对应的预设操作发生概率,第一预测网络和第二预测网络的预测结果相融合即可得到准确的预设操作发生概率。并且,还设计了至少一个门控网络,门控网络以需要关注的个性化信息为输入,通过设置门控网络传递深层特征信息,从而让神经网络更好地学习个性化特征,提升训练得到的模型对于个性化差异的敏感度。
  • 神经网络模型的训练方法、装置、电子设备及存储介质-202310580227.7
  • 林峰璞;穆显显;石志国;郭家义;朱芳;朱蓉华;梁玉晨;毛伟;赵敏;贾瑞江 - 北京市大数据中心;太极计算机股份有限公司
  • 2023-05-22 - 2023-10-27 - G06N3/08
  • 本公开提出了一种神经网络模型的训练方法、装置、电子设备及存储介质,涉及深度学习技术领域,包括:获取训练数据集,其中,所述训练数据集中包含待预测城市在指定时期内的新增异常数据;将所述训练数据集输入至预先构建的预测模型中进行迭代训练,直至迭代次数达到预设阈值停止训练,其中,所述预测模型是CNN模型和双向长短期记忆模型融合构建的模型;基于预先选择的误差函数模型对所述预测模型进行评估,直至所述预测模型所对应的误差值满足预设条件,确定所述预测模型为训练完成的预测模型。由此,可以使得训练生成的预测模型能够对新增阳性人数进行预测,实现对数据时序特征的提取,同时实现对预测精度的提高,有助于对数据进行精确化管理。
  • 路况预测方法及装置、计算机设备与可读介质-201710260079.5
  • 成幸毅;周杰;张睿卿;徐伟 - 百度在线网络技术(北京)有限公司
  • 2017-04-20 - 2023-10-27 - G06N3/08
  • 本发明提供一种路况预测方法及装置、计算机设备与可读介质。其所述方法包括:从道路路网中获取目标道路的N阶相邻道路;分别获取当前时刻的目标道路的特征信息和目标道路的N阶相邻道路的特征信息;根据当前时刻的目标道路特征信息、目标道路的N阶相邻道路的特征信息以及预先训练的路况预测模型,预测目标道路在预设的未来时刻的路况。本发明的技术方案,在预测时不仅参考了目标道路的当前时刻的路况以及至少一个历史时刻的路况,还参考了目标道路的空间信息即参考了目标道路的N阶相邻道路的当前时刻的路况以及至少一个历史时刻的路况,从而能够更加准确地预测目标道路在未来时刻的路况。
  • 语言模型的训练方法、装置、电子设备及存储介质-202310900333.9
  • 赵宇明;宋阳;陈蒙 - 京东科技信息技术有限公司
  • 2023-07-20 - 2023-10-24 - G06N3/08
  • 本公开提供了一种语言模型的训练方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:获取对话数据;使用预设掩码方式对所述对话数据进行第一掩码处理,使用第一掩码处理后的对话数据对语言模型进行阶段训练,获得阶段训练完成的语言模型;将所述对话数据输入至阶段训练完成的语言模型中,获得所述对话数据中各个词元对应的自注意力权重矩阵;根据所述自注意力权重矩阵确定所述对话数据中的目标掩码对象;基于所述目标掩码对象对所述对话数据进行第二掩码处理,使用第二掩码处理后的对话数据对所述阶段训练完成的语言模型进行阶段训练,以获得训练完成的语言模型。
  • 图像生成模型的处理方法、装置、设备和存储介质-202311198245.5
  • 郭卉 - 腾讯科技(深圳)有限公司
  • 2023-09-18 - 2023-10-24 - G06N3/08
  • 本申请涉及一种图像生成模型的处理方法、装置、设备和存储介质。该方法涉及人工智能技术,方法包括:获取输入图像,输入图像是属于目标类别的实例图像;根据目标类别进行图像检索,得到多个检索图像;基于图像语义对多个检索图像进行聚类,得到多个聚类簇;基于图像相似度从多个检索图像中筛选出输入图像的相似图像;从各聚类簇中选取图像,作为本次训练的类别相关正则化图像,从相似图像中选取图像,作为本次训练的实例相关正则化图像;根据类别相关正则化图像、实例相关正则化图像以及各自的图像描述文本,对预训练的图像生成模型进行微调训练,得到微调训练好的图像生成模型。这样,能够提升图像生成效果。
  • 用来对用于分子生物学研究的分类器进行训练的方法和装置-202180093598.1
  • N·Y·芬尼;J·H·梅岑;J·Z·柯尔特 - 罗伯特·博世有限公司
  • 2021-12-10 - 2023-10-24 - G06N3/08
  • 一种用于训练分类器(60)的计算机实现的方法,所述方法具有如下步骤:·确定至少一个第一输入信号(xi),其中,所述第一输入信号(xi)表征分子生物学研究系统(600)的多个评估点(602),并且给所述第一输入信号(xi)分配所希望的输出信号(ti),所述输出信号表征所述评估点(602)的分类;·按照所述评估点(602)的布置,将所述第一输入信号(xi)划分成多个第二输入信号(xa,xb,xc);·确定多个第一表示(za,zb,zc),其中,针对所述多个第二输入信号(xa,xb,xc)的至少一个第一子集的每个第二输入信号(xa,xb,xc),借助于所述分类器(60)来确定第一表示(za,zb,zc);·借助于所述分类器(60)并且基于所述多个第一表示(za,zb,zc)来确定输出信号(yi),其中,所述输出信号(yi)表征所述第一输入信号(xi)的分类;·按照损失值来调整所述分类器(60)的至少一个参数(Φ),其中,所述损失值表征所确定的输出信号(yi)与所希望的输出信号(ti)之间的差异。
  • 一种面向深度学习的差分隐私可用性度量方法-202111270189.2
  • 关志涛;罗丹 - 华北电力大学
  • 2021-10-29 - 2023-10-24 - G06N3/08
  • 本发明公开了一种面向深度学习的差分隐私可用性度量方法,首先将数据输入到神经网络模型中,计算出该随机化权重下的模型参数,在该参数下得到数据标签,与真实输出进行比较,得到此轮迭代的损失函数,利用损失函数的反向传播得到梯度值;其次定义衡量可用性的指标,并反推出该前提下隐私预算的大小,若预算不合适则在该值的基础上以一定增长率增加;最后,引入动量的思想,结合上一次梯度下降的方向对本次梯度方向进行优化,减少整体寻优过程的波动,加速模型的收敛。本发明用到了差分隐私、神经网络随机梯度下降、动量等技术,实现了数据传输过程中隐私性和可用性的平衡,并保证了神经网络训练过程的收敛性。
  • 分布式训练方法、梯度通信方法、装置及电子设备-202211426391.4
  • 沈亮;于佃海 - 北京百度网讯科技有限公司
  • 2022-11-15 - 2023-10-24 - G06N3/08
  • 本公开公开了一种分布式训练方法、梯度通信方法、装置及电子设备,涉及人工智能领域,尤其涉及深度学习领域。具体实现方案为:利用第一通信方式,与其他计算节点交换各自的有效参数,其中,有效参数为计算节点对应稀疏梯度中有效梯度的行数,有效梯度为计算节点对应稀疏梯度中有效部分的梯度数据;基于所有计算节点的有效参数,确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式,其中,有效行参数是表示稀疏梯度与有效梯度映射关系的数组;利用第二通信方式,与其他计算节点交换各自的有效行参数和有效梯度。本公开实施例节约了通信资源,提升了深度神经网络分布式训练的通信性能。
  • 一种神经网络的训练方法、装置及序列预测方法-201811258926.5
  • 白帆;程战战 - 杭州海康威视数字技术股份有限公司
  • 2018-10-26 - 2023-10-24 - G06N3/08
  • 本发明公开了一种神经网络的训练方法、装置及序列预测方法,属于人工智能技术领域。方法:在将n个样本数据输入至待训练的神经网络后,获取待训练的神经网络输出的n个概率分布列序列,第k个概率分布列序列包括m个概率分布列,第k个概率分布列序列中第g个概率分布列为,第k个样本数据的第g个单元数据的类别的概率分布,n、k、m和g均为整数,1≤k≤n,1≤g≤m;确定第k个概率分布列序列到第k个标定序列的编辑概率,第k个概率分布列序列到第k个标定序列的编辑概率为,通过编辑操作将第k个概率分布列序列生成第k个标定序列的概率;基于n个概率分布列序列中各个概率分布列序列到相应标定序列的编辑概率,对待训练的神经网络进行优化。
  • 电子设备及其控制方法-201880062220.3
  • 金庆勋;朴永焕;徐东宽;K.P.纳加拉贾;金大铉;金硕镇;赵韩秀;金铉中 - 三星电子株式会社
  • 2018-05-16 - 2023-10-24 - G06N3/08
  • 公开了一种电子设备。电子设备包括存储装置和处理器,该处理器基于步幅信息对目标数据和内核数据执行卷积处理,该步幅信息指示内核数据被应用于存储在存储装置中的目标数据的间隔,其中,该处理器基于第一步幅信息将目标数据划分为多条子数据,基于不同于第一步幅信息的第二步幅信息对多条子数据和分别与多条子数据相对应的多条子内核数据执行卷积处理,并且组合多个处理结果。通过基于第一步幅信息划分内核数据来获得多条子内核数据,并且,第二步幅信息可以指示内核数据被应用于目标数据的间隔是1。
  • 随机向量函数链神经网络权重交替迭代更新方法及系统-202310946757.9
  • 王殿辉 - 东北大学;中国矿业大学;江苏锐策智能科技有限公司
  • 2023-07-28 - 2023-10-20 - G06N3/08
  • 本发明属于RVFL网络模型构建技术领域,公开了一种随机向量函数链神经网络权重交替迭代更新方法及系统,包括:设定网络模型非线性部分的隐含层节点数、隐层权重和偏置的取值范围;对网络模型的线性和非线性部分输出权重交替迭代更新,直到模型的误差或迭代次数满足预先设定的要求,模型停止更新,得到最终的RVFL网络模型。本发明对随机向量函数链神经网络(RVFL)的线性和非线性部分进行交替建模,使得模型具有物理可解释性,可以更好的预测实际生产过程的变化趋势,提高模型输出精度。因此,本发明设计的数据建模方式适用于化工、冶金等工业生产过程的应用场景,有很高的工业应用价值和很好的应用前景。
  • 计算图处理方法、装置、设备、存储介质以及程序产品-202211416815.9
  • 梁建中;赵英利;曹州;敖玉龙;于佃海 - 北京百度网讯科技有限公司
  • 2022-11-11 - 2023-10-20 - G06N3/08
  • 本公开提供了一种计算图处理方法、装置、设备、存储介质以及程序产品,涉及计算机技术、数据处理技术领域,尤其涉及人工智能、深度学习、芯片技术领域。具体实现方案为:将深度学习模型的计算图划分为多个计算图分段;确定每一个计算图分段在硬件单元上运行的资源占用‑运算比,其中,资源占用‑运算比表征计算图分段相对于硬件单元的资源占用量和运算量之间的比值;根据硬件单元的可用资源量和计算图分段的资源占用‑运算比,确定目标计算图分段;以及根据目标计算图分段,修改计算图,得到更新计算图。
  • 模型的训练方法、图数据处理方法、装置及电子设备-202211496871.8
  • 吴鑫烜;冯丹蕾;王贤明;吴志华;于佃海 - 北京百度网讯科技有限公司
  • 2022-11-24 - 2023-10-20 - G06N3/08
  • 本公开提供了模型的训练方法、图数据处理方法、装置及电子设备,涉及人工智能领域,尤其涉及图神经网络技术、计算机视觉、深度学习、大数据领域。具体实现方案为:从图形处理器的存储单元读取图结构信息;对图结构信息进行图采样,得到样本子图结构信息;从存储单元读取与样本子图结构信息相对应的样本节点特征信息以及样本模型参数信息;利用图形处理器处理样本节点特征信息和样本模型参数信息,得到更新后节点特征信息和更新后模型参数信息;以及根据更新后节点特征信息和更新后模型参数信息,确定经训练的图神经网络模型。
  • 基于混合精度的深度学习模型训练方法、装置及系统-201910313866.0
  • 裴建国;侯金龙;刘伟;黄俊洲 - 腾讯科技(深圳)有限公司
  • 2019-04-18 - 2023-10-20 - G06N3/08
  • 本发明公开了一种基于混合精度的深度学习模型训练方法、装置及系统,该方法包括:基于上次训练得到的深度学习模型对样本数据集中的样本数据进行数据处理,获得数据精度为第一数据精度的设定数量个第一权重梯度数据;根据设定数量个第一权重梯度数据和第二数据精度,确定数据精度为第二数据精度的缩放系数,第一数据精度高于第二数据精度;基于样本数据集和缩放系数,对深度学习模型进行训练以更新深度学习模型的权重参数,获得本次训练的深度学习模型,缩放系数用于在训练深度学习模型的过程中对数据精度为第二数据精度的损失值进行放大处理,以提高了训练效率和训练精度。
  • 私有化模型的生成方法、电子设备和可读存储介质-202310904264.9
  • 刘淇 - 美的集团(上海)有限公司;美的集团股份有限公司
  • 2023-07-21 - 2023-10-17 - G06N3/08
  • 本申请公开了一种私有化模型的生成方法、电子设备和可读存储介质,涉及模型技术领域。其中,私有化模型的生成方法,包括:针对N个设备联动参数,设计N张图片,其中,N张图片分别为N个设备联动参数对应的设备联动效果图;将N张图片发送给人工智能绘画模型;获取来自人工智能绘画模型输出的N张图片对应的M个提示语;获取设备联动参数对应的文案;将M个提示语及与提示语对应的文案发送给大语言模型,供大语言模型生成私有化模型。其中,M和N为大于1的正整数,M和N是相同的或是不同的,私有化模型为基于输入的文案,输出提示语的私有化模型。
  • 网络结构搜索方法和装置、存储介质、电子设备-201911096240.5
  • 孙玉柱;方杰民;张骞 - 北京地平线机器人技术研发有限公司
  • 2019-11-11 - 2023-10-17 - G06N3/08
  • 本公开实施例公开了一种网络结构搜索方法和装置、存储介质、电子设备,其中,方法包括:基于预设训练任务对应的训练集样本对已知网络结构的第一网络进行训练,确定所述第一网络中对应所述预设训练任务的第一子网络;基于所述第一网络确定第二网络,基于所述训练集样本对所述第二网络进行训练,确定所述第二网络中对应所述预设训练任务的第二子网络;基于所述第一子网络和所述第二子网络确定包括两条路径的目标网络;通过目标网络的两条路径可以获得高级语义信息和底层细节信息,进而可以确保结合高级语义信息和底层细节信息有助于密集预测任务的预测。
  • 一种数据处理方法、装置以及存储介质-201710735990.7
  • 倪辉 - 腾讯科技(上海)有限公司;腾讯云计算(北京)有限责任公司
  • 2017-08-24 - 2023-10-17 - G06N3/08
  • 本发明公开了一种数据处理方法、装置以及存储介质,该数据处理方法包括:获取待处理数据;将该待处理数据输入终端内嵌的深度学习模型中进行处理,该深度学习模型包括多层计算架构;在处理过程中,检测当前层计算架构是否运行完毕;若检测出当前层计算架构运行完毕,则获取当前层计算架构对应的存储区域,并对该存储区域进行清理,该存储区域用于存储当前层计算架构在运行时产生的运行数据;当清理完成时,将该下一层计算架构作为当前层计算架构,并返回执行检测当前层计算架构是否已运行完毕的步骤,直至输出处理结果。上述数据处理方法有利于深度学习模型在终端中的离线实现,灵活性高,计算效率高。
  • 应用于神经网络的训练方法及装置以及相关产品-202310947078.3
  • 请求不公布姓名 - 上海寒武纪信息科技有限公司
  • 2023-07-28 - 2023-10-13 - G06N3/08
  • 应用于神经网络的训练方法及装置以及相关产品。本发明涉及一种板卡,所述板卡包括:存储器件、接口装置和控制器件以及人工智能芯片;其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;所述存储器件,用于存储数据;所述接口装置,用于实现所述人工智能芯片与外部设备之间的数据传输;所述控制器件,用于对所述人工智能芯片的状态进行监控。所述板卡可以用于执行人工智能运算。
  • 预训练模型的微调方法、装置、设备及介质-202310883038.7
  • 朱威 - 平安科技(深圳)有限公司
  • 2023-07-18 - 2023-10-13 - G06N3/08
  • 本申请涉及人工智能及医疗健康领域,公开了一种预训练模型的微调方法,包括:获取预训练模型,并在预训练模型的每层设置一个参数微调模块,得到待微调模型;获取目标任务对应的数据集,并在待微调模型中,利用可微分架构搜索方法,根据数据集调整每个参数微调模块的架构以及参数,得到与参数微调模块对应的目标参数微调模块;组合预训练模型以及目标参数微调模块,得到与目标任务对应的调整后模型。本申请的方法解决了现有参数高效微调方法中,架构简单导致的微调效果较差,无法胜任医学领域任务的问题。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top