[发明专利]数据训练方法、装置及系统、计算机设备有效
申请号: | 201711377963.3 | 申请日: | 2017-12-19 |
公开(公告)号: | CN109948632B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 郑星 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 训练 方法 装置 系统 计算机 设备 | ||
本发明公开了一种数据训练方法、装置及系统、计算机设备,属于人工智能领域。所述方法包括:与其他训练主机获取同一伪随机数种子,其他训练主机为多个训练主机中除第一训练主机以外的训练主机;执行至少一次训练过程,直至训练过程的执行结果满足预设停止条件,训练过程包括:基于伪随机数种子,对文件名集合进行随机化处理,得到更新后的文件名集合,基于更新后的文件名集合,对训练数据集中的第一数据子集进行训练,直至多个训练主机完成本次对训练数据集的训练后,再次执行训练过程,第一数据子集包括第一训练主机对应的数据。本发明解决了相关技术中数据训练网络开销较大,数据训练系统稳定性较差的问题。本发明用于数据训练。
技术领域
本发明涉及人工智能领域,特别涉及一种数据训练方法、装置及系统、计算机设备。
背景技术
深度学习是一种比较有效的人工智能方法,深度学习可以通过模拟人脑的学习行为从数据中学习相关知识,并将学习到的知识用于后续的预测。目前,在大规模的深度学习训练中,由于训练数据集的数据量较大,为了提高数据训练的效率,通常采用多台训练主机同时对数据进行训练。
相关技术中,在数据训练的初始化过程中,每台训练主机可以获取并存储同一训练数据集(即每台训练主机中存储的训练数据集均相同),并由指定的训练主机A基于训练数据集生成文件名列表,该文件名列表中包括训练数据集中所有数据的名称。在数据训练过程中,训练主机A对文件名列表进行随机洗牌处理,并将随机洗牌处理后的文件名列表发送至所有其他训练主机,每个训练主机基于文件名列表中固定位置的数据名称从已存储的训练数据集中获取相应的数据,并对数据进行训练。
例如,假设数据训练系统中包括三台训练主机,分别为训练主机A、训练主机B和训练主机C,文件名列表中包含900个数据名称,在数据训练过程中,训练主机A用于训练文件名列表中1~300的数据名称对应的数据,训练主机B用于训练文件名列表中301~600的数据名称对应的数据,训练主机C用于训练文件名列表中601~900的数据名称对应的数据。在所有训练主机训练完成后,训练主机A再次对文件名列表进行随机洗牌处理,并重复上述过程,直至对训练数据集的训练次数达到预设次数阈值。
但是,采用相关技术中的数据训练方法,训练主机A每次对文件名列表进行随机洗牌处理后,都要将文件名列表发送至所有其他训练主机,由于文件名列表的数据量较大,因此数据训练过程中所占用的带宽较大,数据训练的网络开销较大,数据训练系统的稳定性较差。
发明内容
本发明实施例提供了一种数据训练方法、装置及系统、计算机设备,可以解决相关技术中数据训练的网络开销较大,数据训练系统的稳定性较差的问题。所述技术方案如下:
第一方面,提供了一种数据训练方法,用于数据训练系统中的第一训练主机,所述数据训练系统中包括多个训练主机,所述第一训练主机为所述多个训练主机中的一个,每个所述训练主机中存储有相同的训练数据集以及包括所述训练数据集中所有数据的名称的相同的文件名集合,所述方法包括:
与其他训练主机获取同一伪随机数种子,所述其他训练主机为所述多个训练主机中除所述第一训练主机以外的训练主机;
执行至少一次训练过程,直至所述训练过程的执行结果满足预设停止条件,所述训练过程包括:
基于所述伪随机数种子,对所述文件名集合进行随机化处理,得到更新后的文件名集合,
基于所述更新后的文件名集合,对所述训练数据集中的第一数据子集进行训练,直至所述多个训练主机完成本次对所述训练数据集的训练后,再次执行所述训练过程,所述第一数据子集包括所述第一训练主机对应的数据;
其中,所述数据训练系统中的所有训练主机在执行同一次训练过程时,所得到的更新后的文件名集合均相同。
可选地,所述第一训练主机为管理训练主机,所述与其他训练主机获取同一伪随机数种子,包括:
生成某一伪随机数种子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711377963.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水力要素的确定方法及装置
- 下一篇:一种丁字路口客车下客点选择方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置