[发明专利]基于注意力机制的固态硬盘数据预取方法有效

申请号：	202210637618.3	申请日：	2022-06-08
公开（公告）号：	CN114706798B	公开（公告）日：	2022-08-12
发明（设计）人：	杨晨旭;许辉;蒋春林;邵杰	申请（专利权）人：	四川省人工智能研究院(宜宾)
主分类号：	G06F12/0862	分类号：	G06F12/0862;G06F12/0866;G06F12/0877;G06N3/04;G06N3/08;G06K9/62
代理公司：	成都正德明志知识产权代理有限公司 51360	代理人：	杨木梅
地址：	644000 四川省宜宾市宜宾***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制固态硬盘数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力机制的固态硬盘数据预取方法，可以筛选出固态硬盘上被频繁读取的地址，减小了需要建模的空间；同时，本发明采用基于注意力机制的神经网络，能学习访问差值序列中的重要信息，忽略不重要的信息；此外，本发明首次使用表格记录并查找地址和它对应的数据量，使得预测数据量的操作简单、方便、快捷，同时能够对预取数据量进行准确预测。

技术领域

本发明属于数据预取技术领域，具体涉及一种基于注意力机制的固态硬盘数据预取方法的设计。

背景技术

现有的固态硬盘数据预取方法有三种，第一种是基于行为的预取方法，该方法的缺点是依靠预先定义好的、固定不变的规则对硬盘数据进行预取，因此，该方法无法应对访问模式复杂多变的情形；第二种是基于机器学习的预取方法，该方法使用机器学习算法学习硬盘访问轨迹，但是机器学习算法的学习能力有限，在面对巨大的硬盘地址空间时无法进行准确的预取；第三种是基于深度学习的预取方法，该方法的不足在于使用长短时记忆网络预测硬盘地址和数据量，不能充分学习访问序列中的重要信息，也没有挖掘地址与数据量之间的关系。

现有的固态硬盘数据预取方法或是使用固定的规则，或是使用人工智能方法，但随着现有固态硬盘的容量越来越大，访问模式越来越复杂，固态硬盘上的数据预取需要更加有效的方法。

发明内容

本发明的目的是提供一种基于注意力机制的固态硬盘数据预取方法，以解决现有的固态硬盘数据预取方法针对巨大的硬盘地址空间难以建模，难以学习访问序列中的重要信息，无法对预取数据量进行准确预测的问题。

本发明的技术方案为：基于注意力机制的固态硬盘数据预取方法，包括以下步骤：

S1、采集固态硬盘访问轨迹数据，删除其中的写操作记录，筛选得到读操作记录，读操作记录包括操作地址和在本地址读取的数据量。

S2、统计在每个操作地址最常读取的数据量，生成一个地址-数据量表格。

S3、对读操作记录的操作地址求一阶差分，将地址序列转化为差值序列。

S4、将差值序列中前N个最频繁出现的差值分为N个类，其余差值归为同一类。

S5、将分类后的差值按顺序划分为若干个长度为32的序列，得到处理好的差值序列。

S6、将处理好的差值序列输入到基于注意力机制的神经网络中进行学习，输出得到预测差值。

S7、判断预测差值是否属于前N类最频繁出现的差值，若是则进入步骤S9，否则进入步骤S8。

S8、不对固态硬盘数据进行预取，结束预取流程。