[发明专利]一种基于序列推荐系统的通用网络压缩框架和压缩方法有效
申请号: | 202010092180.6 | 申请日: | 2020-02-14 |
公开(公告)号: | CN111368995B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 杨敏;原发杰;孙洋 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06N3/0495 | 分类号: | G06N3/0495;G06N3/0464;G06N3/047;G06N3/08;G06N5/04;G06F16/9535;G06F16/2457;G06F16/2458 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 推荐 系统 通用 网络 压缩 框架 方法 | ||
本发明提供一种基于序列推荐系统的通用网络压缩框架和压缩方法。该通用网络压缩框架包括:基于分块自适应分解的输入嵌入层:用于根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块,其中为每个簇的块分配不同维度;分层参数共享的中间层:连接所述输入嵌入层,由多个残差块堆积而成,采用分层参数共享机制进行参数共享;基于分块自适应分解的输出层:与所述输入嵌入层使用相同的分块嵌入的聚簇配置,并采用树型结构表示各簇的块,获得输出序列的概率分布,进而对期望的推荐项进行预测。本发明有效地解决了序列推荐模型参数量庞大的问题,提升了模型的训练和推断效率,缓解了模型过拟合现象。
技术领域
本发明涉及序列推荐技术领域,更具体地,涉及一种基于序列推荐系统的通用网络压缩框架和压缩方法。
背景技术
序列(又称基于会话)推荐系统已成为推荐领域的研究热点。这是因为现实生活中的用户交互行为通常以时间序列的形式存在。例如,在亚马逊购买电话后,用户很可能在会话中购买手机壳,耳机和屏幕保护膜等。另一个例子来自流行的短视频共享应用程序TikTok,用户可以在一小时内观看数百个视频,这些视频自然形成了一个视频播放序列。在这种情况下,基于递归神经网络(RNN)或卷积神经网络(CNN)(通常使用空洞卷积)的序列推荐模型获得了最好的推荐性能,因为这些深度学习模型在获取用户-推荐项交互序列中的序列依存关系方面更强大。。
一般来说,基于深度神经网络(DNN)的现代序列推荐模型分为三个主要模块:用于表示交互序列的输入嵌入层、用于生成下一项概率分布的输出softmax层以及夹在它们之间的一个或多个隐藏层(循环层或卷积层)。在实际应用中,为了提高模型的容量,通常采用的方法是更大的模型尺寸和更多的模型参数。通过增加序列推荐模型的大小,即使用更大的嵌入维度或更深的网络架构,可以提高其预测精度。虽然大型网络往往会带来明显的精度提高,但也可能成为模型部署和实时预测的主要障碍。特别是对于内存有限的设备,如GPU/TPU或终端用户设备,具有数亿甚至数十亿参数的大型序列模型很容易达到可用硬件的内存限制。另一个缺点是,使用较大的矩阵和较深的网络会影响训练和推理速度。虽然模型并行化可以应用于更大的网络,但通信开销仍然与模型中的参数数量成比例。此外,现有研究表明,在某一点上,进一步增大模型大小可能导致过度拟合问题或意外的模型表现退化问题。因此,模型压缩对于实现能够实时响应和更好的泛化能力的推荐模型至关重要。
事实上,推荐系统领域中的模型压缩问题比其他领域,如计算机视觉(CV)和自然语言处理(NLP)更具挑战性。例如,在CV中,用于ImageNet的ResNet-101只有4450万个参数。其中最大的NLP模型BERT Large(24层,16个注意头)有大约3.4亿个可训练参数。相比之下,在工业推荐系统中,例如YouTube和Amazon,存在着数亿个推荐项。如果简单地假设推荐项数为1亿,并将嵌入维度设为1024,可以得到关于输入嵌入和输出softmax矩阵的2000亿可训练的参数,分别比ResNet-101和BERT-Large大4000和400多倍。另一方面,在中小型推荐系统中,来自中间层的参数不可忽略,例如未来的车载推荐系统,其中内存消耗可能由中间层和嵌入矩阵支配。在实践中,如果用户行为序列较长,则可能需要堆叠更多的中间层以获得更好的精度
随着人们越来越多地关注模型压缩方法。一些相关的研究成果也不断被发表出来。例如,在一项研究成果中,提出了使用标准的低秩分解方法,将输入嵌入层和输出softmax层分别分解为两个较小的矩阵,在中间层采用了跨层参数共享的方法,通过这些方法对模型进行压缩,提高了参数效率。在另外一项研究成果中,提出了基于知识蒸馏的模型用于推荐领域,将知识从大型的、经过预训练的教师模型转移到通常较小的学生模型中,进而实现模型压缩。由于没有明确考虑到序列推荐领域的特点,上述两种方法均存在很大的局限性,如模型压缩过程中存在明显的损失性能,并且压缩效果不够理想。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010092180.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集成电路板到位检测治具
- 下一篇:基于透明任务的电价参数下发方法及系统