我们真的需要模型压缩吗

2024-06-21 20:03:06

本文翻译自博客：

《Do We Really Need Model Compression?》

作者:Mitchell A. Gordon

前言：

模型压缩是一种缩小训练后的神经网络的技术。压缩的模型在使用少量计算资源的情况下，其性能通常与原始模型相似。但是，在许多应用程序中，瓶颈被证明是在压缩之前训练原始的大型神经网络。例如，可以在低成本的GPU（12 GB的内存）上训练基于BERT的模型，但是BERT-large需要在Google TPU（64 GB的内存）上训练，这使许多人无法尝试使用预训练的语言模型。

模型压缩领域的结果告诉我们，我们收敛的解决方案通常比最初训练的模型具有更少的参数。那么，是什么阻止我们通过从头训练小型模型来节省GPU内存呢？

在这篇文章中，我们将探索从头开始训练小型模型所涉及的困难。我们将讨论模型压缩为何起作用，以及两种进行内存有效训练的方法：过量参数的界限和更好的优化方法，这些方法可以减少或消除事后模型压缩。最后我们将总结未来的研究方向。

Appropriately-Parameterized Models

适量参数的模型--既没有过量参数也没有欠参数的模型，而是具有合适数量的参数以表示任务的理想解决方案的模型。

我们通常不会在深度学习范式中训练适量参数的模型。这是因为对于给定的数据集，通常不知道使用多少参数量合适。即使知道了解决方案，众所周知，使用梯度下降法训练适量参数的模型也很困难。

相反，训练程序通常看起来像这样：

我们会训练一个过参数化的模型。这些模型通常具有比训练样本数量更多的参数。
各种正则化技术（隐式或其他）用于约束优化，以偏向于“简单解决方案”而不是过度拟合。
模型压缩通过消除冗余来提取嵌入在较大模型中的“简单”模型，使内存和时间效率更接近理想的适量参数的模型。

极端的过度参数化使训练变得更加容易。但是，由于模型被过度参数化，因此它们可以存储数据，而不是学习数据中的有用模式，因此需要进行正则化。然后，模型压缩利用这种简单性仅保留解决方案实际需要的参数。

由于我们的目标是使用更少的GPU内存来训练神经网络，因此我们可以提出一些明显的问题：

为什么需要过度参数化？需要多少过参数化？
我们可以通过使用更智能的优化方法来减少过度参数化吗？

接下来的两个部分将依次解决这些问题。

Over-parameterization Bounds

为什么需要超量参数？通过充分超量参数的神经网络，我们可以使优化的landscape有效凸出。杜etc(2019)、Haeffele和Vidal(2017)在一些简单情况下对此进行了数学证明，给出了必要的过参数化量，能在多项式时间内实现0训练损失。有效地，过度参数化是为了增加内存使用量而牺牲了计算难易度。

这些界限通常被认为是宽松的。这意味着尽管我们可以预测出足够数量的参数来完美拟合某些数据，但我们仍然不知道要完美拟合数据所需的最小参数数量。严格的界限可能取决于从优化过程（SGD与GD，Adam与其他）到体系结构的所有方面。计算严格边界甚至比训练所有可能的候选网络在计算上更加棘手。

但是，在这方面肯定还有改进的余地。严格的过度参数化范围将使我们可以训练较小的网络，而无需在架构上进行网格搜索，也不必担心更大的网络可能为我们带来更好的性能。证明是否可以扩展到recurrent models, transformers，按batch norm训练的模型等仍然存在问题。

上面忽略了提及不同的体系结构可能具有不同的过参数化范围的情况。那么，一种合理的方法是使用具有较低过参数化范围的不同体系结构。一些有趣的“efficient transformers”包括Reformer，ALBERT，Sparse Transformers和SRU。

Better Optimization Techniques

从经验上讲，很难对参数正确的模型进行训练。用梯度下降训练适当大小的模型通常会严重失败。该模型将无法收敛以适合训练数据，更不用说泛化了。这部分由神经网络的优化环境的非凸性/ non-friendliness来部分解释，但是训练适量参数化模型的计算复杂度的精确表征仍然不完整。

模型压缩技术通过阐明过参数化模型趋于收敛的解的类型，为我们提供了有关如何训练适当参数化模型的提示。模型压缩的类型很多，每种模型都利用一种不同类型的“简单性”，这种“简单性”往往在训练有素的神经网络中发现：

许多权重接近零（修剪）
权重矩阵低秩（权重分解）
权重只用几位来表示（量化）
层通常会学习类似的功能（权重共享）

这些“简单性”中的每一个都是由于训练过程中的正则化（隐式或其他）或训练数据的质量而引起的。当我们知道我们正在寻找具有这些特性的解决方案时，它为改进我们的优化技术开辟了令人振奋的新方向。

Sparse Networks from Scratch

权重修剪可能是最成功的压缩方法示例，可以将压缩方法转变为优化方法。经过训练的神经网络通常具有许多权重（30-95％），它们接近于0。可以删除这些权重而不会影响神经网络的输出。

我们是否可以通过从一开始就训练稀疏神经网络来减少GPU使用，而不是事后修剪呢？有一阵子，我们认为答案是否定的。稀疏的网络很难训练；优化环境非常不凸且不友好。

然而，Frankel和Carbin(2018)朝着这个方向迈出了第一步。他们发现他们可以从头开始重新训练修剪的网络，但前提是必须将其重新初始化为在密集训练期间使用的相同初始化。他们对此的解释是the Lottery Ticket Hypothesis：密集网络实际上是许多适量参数化的稀疏模型的并行随机初始化组合。碰巧得到了幸运的初始化并收敛于解决方案。

最近，Dettmers和Zettlemoyer(2019)，Mostafa(2019)，和Evci 等人(2019)，指明可以从头开始训练适当参数化的稀疏网络，从而大大减少了训练神经网络所需的GPU内存量。重要的不是初始化，而是探索模型的稀疏子空间的能力。Lee等人的类似工作(2018)，尝试通过对数据进行一次传递来快速找到合适的稀疏架构。

我相信，其他类型的模型压缩可能会重复这种模式。一般而言，模式是:

模型压缩方法揭示了训练后的神经网络中的一些常见冗余。
研究了造成这种冗余的归纳偏差/正则化。
从训练开始，就创建了一种巧妙的优化算法来训练没有这种冗余的网络。

下表列出了其他类型的模型压缩，以及为使模型更接近训练的开始而付出的努力16（成功水平各不相同）

Future Directions

我们真的需要模型压缩吗？这篇文章的标题具有挑衅性，但想法并非如此：通过收紧过度参数化的界限并改善我们的优化方法，我们可以减少或消除对事后模型压缩的需求。显然，在我们有一个明确的答案之前，仍有许多悬而未决的问题需要回答。以下是我希望在未来几年完成的一些工作。

超量参数方面

我们可以通过窥视数据质量（使用低资源计算）来获得更紧密的界限吗？
如果我们使用巧妙的优化技巧（如Rigged Lottery13），超参数化界限会如何变化？
我们可以得到强化学习环境的过度参数化界限吗？
我们可以将这些范围扩展到其他常用的体系结构（RNN，Transformers）吗？

优化方面

我们没有利用的经过训练的神经网络中还有其他冗余吗？
使这些变得可行：

从头开始训练量化的神经网络。

从头开始使用低秩矩阵训练神经网络。
弄清楚为什么知识蒸馏可以改善优化。如果可能的话，使用类似的想法进行优化，同时使用更少的GPU内存。

正则化方面

哪些类型的正则化会导致哪些类型的模型冗余？
修剪和重新训练与L0正则化有何关系？哪些隐式正则化导致可修剪性？
哪些类型的正则化可以量化？

原文链接：

http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html#fn:lottery-general

RepVGG：让VGG网络再次变成最优秀的网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
1.9万亿参数量，快手落地业界首个万亿参数推荐精排模型

磐创AI分享来源 | 机器之心 [导读]来,走近快手业界首个万亿参数推荐精排模型的内部构造. 个性化推荐系统旨在根据用户的行为数据提供「定制化」的产品体验,精准的推荐系统模型也是很多互联网产 ...
【高手秘笈】如何在 Cortex-M 处理器上实现高精度关键词识别

我们可以对神经网络架构进行优化,使之适配微控制器的内存和计算限制范围,并且不会影响精度.我们将在本文中解释和探讨深度可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别的潜力. 关键词识别 ...
AI训练的最大障碍不是算力，而是“内存墙”

子豪发自凹非寺量子位报道 AI训练的计算量每年都在大幅增长,最近有研究指出,AI训练未来的瓶颈不是算力,而是GPU内存. AI加速器通常会简化或删除其他部分,以提高硬件的峰值计算能力,但是却难 ...
用Excel体验梯度下降法

公众号后台回复"图书",了解更多号主新书内容作者:气象学渣来源:气象学渣梯度下降法是目前神经网络训练过程中最为核心的算法之一,配合链式求导可实现误差在神经网络中的反向传播,更 ...
CVPR2019 | 专门为卷积神经网络设计的训练方法：RePr

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文...

NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
量化及定点化模型压缩常见方法、特定及优缺点整理

模型压缩简答说就是将庞大的深度学习模型进行压缩,常见方法包括五大类,分别是剪枝.量化.正则化.知识蒸馏.条件计算. 量化是模型压缩常用方法之一,本文不完全包括了一些神经网络Fixed-Point Tr ...
模型压缩：量化、剪枝和蒸馏

导读:近年来,BERT 系列模型成了应用最广的预训练语言模型,随着模型性能的提升,其参数规模不断增大,推理速度也急剧提升,导致原始模型必须部署在高端的GPU 显卡上,甚至部分模型需要多块显卡才能正常运 ...
【星球知识卡片】模型压缩重要方向-动态模型，如何对其长期深入学习

【星球知识卡片】模型压缩重要方向-动态模型，如何对其长期深入学习
模型压缩经典解读：解决训练数据问题，无需数据的神经网络压缩技术

作者丨科技猛兽来源丨极市平台编辑丨极市平台极市导读目前很少有工作关注在无数据情况下的网络压缩,然而,这些方法得到的压缩后的网络准确率下降很多,这是因为这些方法没有利用待压缩网络的信息.为了解决 ...
模型压缩与蒸馏！BERT的忒修斯船

如果忒修斯的船上的木头被逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗? -普鲁塔克最近遇到一个需要对算法加速的场景,了解到了一个比较简洁实用的方法:Bert-of-these ...
【模型压缩】深度卷积网络的剪枝和加速（含完整代码）

" 记录一下去年12月份实验室的一个工作:模型的剪枝压缩,虽然模型是基于yolov3的魔改,但是剪枝的对象还是CBL层(即Conv Layer + BN Layer + LeakyReLU ...
关于NLP相关技术全部在这里：预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学...

大家都知道NLP近几年非常火,而且发展也特别快.那些耳熟的BERT.GPT-3.图神经网络.知识图谱等技术实际上也就是这几年发展起来的,特别像图神经网络在这两年间取得了飞速的发展.我们正处在信息爆炸的 ...
模型压缩大杀器！详解高效模型设计的自动机器学习流水线

作者丨科技猛兽编辑丨极市平台极市导读本文首先对模型压缩进行了综述,论述目前深度学习存在的挑战,同时对三种高效自动机器流水线方法ProxyLessNAS.AMC和AMC进行了详细的介绍.最后探讨了 ...