如何让神经网络模型更容易地被应用于生活中?一种基于逆尺度空间的神经网络训练算法

发布者:刘铁江发布时间:2022-07-01浏览次数:10


随着深度学习的兴起,人工智能相关的软件越来越多地出现在人们的生活中。通过软件可以实现照片风格转换把照片和梵高的绘画进行结合,也可以用一张照片来识别鸟的种类。这些软件大都使用了深度学习模型。对于深度学习模型,众所周知可以使用梯度下降算法进行模型训练。然而深度学习模型过大的参数量让其很难被直接用在移动设备上。如果能在训练模型的同时,找到一个更小的模型,深度学习模型便可以被更容易地应用到人们的生活当中。近日,复旦大学大数据学院付彦伟课题组提出了一种解决该问题的新算法。

付彦伟老师、孙鑫伟老师及合作者在《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称TPAMI)在线发表了提为“Exploring Structural Sparsity of Deep Networks via Inverse Scale Spaces”的研究论文被全球人工智能领域顶尖期刊接收,提出了对于深度神经网络进行结构选择的一种新思路。

图片


基于逆尺度空间的优化算法DessiLBI

近年来,深度神经网络在越来越多的领域展现出了其强大的能力。随着硬件的提升和研究者的不懈努力,可训练的神经网络模型规模成倍增加,研究者们普遍称这种模型为过参数化模型(overparameterized model)。近期的研究表明过参数化模型有利于神经网络模型的训练,然而过参数化使得模型规模过大,对于其在移动端的部署带来了不小的挑战。付彦伟课题组提出了基于逆尺度空间的优化算法DessiLBI。这是一种对于过参数化模型进行结构选择的算法。在算法的优化路径中重要的特征或权重会更早地被算法选出,因而在使用基于逆尺度空间的优化算法DessiLBI对模型进行优化的过程中,可以得到从简单到复杂的一系列模型。

为了更直观地理解我们算法的作用,图1中展示了一个训练模型的例子。在机器学习中有一个较为经典的任务,使用深度学习模型去识别手写数字。图1中展示了使用常规的梯度下降算法进行训练和DessiLBI进行训练的模型对比。使用DessiLBI进行训练对于模型进行了选择,在训练结束之后原有的参数中只有一小部分保留下来,因而DessiLBI训练的模型更容易被部署到移动端设备如手机或者平板电脑。

图1 使用随机梯度下降(SGD)和DessiLBI在手写数字数据集上训练得到的模型对比。

此外,不同于传统的模型压缩算法,DessiLBI算法可以在训练过程中进行提前停止训练,可以显著节省训练时间。近年来,研究者们还尝试了从搜索模型的最优结构来缓解过参数化模型的问题。复旦大学的付彦伟课题组基于逆尺度空间提出了一种轻量化的模型搜索方法,可以在大量节省计算量的情况下不损失模型表现。该研究不仅有着充足的实验分析,还对于该优化算法进行了理论分析,给出了对于该算法的深入理解。

作者简介


刘宸,复旦大学大数据学院2021级硕士毕业生,硕士导师付彦伟博士。现于香港科技大学数学系攻读博士学位,师从姚远教授。2014年至2018年在上海交通大学机械与动力工程学院攻读工学学士学位。曾获得硕士研究生国家奖学金,上海市优秀毕业生,香港政府博士奖学金、港科大红鸟奖学金等。


其他主要合作者信息:

付彦伟老师:

http://yanweifu.github.io

孙鑫伟老师:

https://sunxinwei0625.github. io/ sunxw.github.io/

姚远老师:

https://yao-lab.github.io


论文发表

[1] Fu, Yanwei, et al. Exploring Structural Sparsity of Deep Networks via Inverse Scale Spaces. TPAMI 2022