机器之心专栏
作者:冀文龙
来自宾夕法尼亚大学的研究者提出了一种层间 「剥离」的分析模型 , 该研究发表在顶级期刊《美国国家科学院院刊》上 。近年来 , 深层神经网络已经在诸多科学与工程问题上取得了优良的表现 , 但关于其良好的泛化性能和鲁棒性却一直缺乏令人满意的理论解释 。 由于深层神经网络高度非凸和非光滑的性质 , 想要提出一般性的理论框架困难重重 , 在这种情况下 , 如何尽可能地寻找一种近似模型 , 既能保持深层网络的基本性质 , 又能从数学角度给出严格的分析?
文章图片
论文地址:https://www.pnas.org/content/118/43/e2103091118
近日 , 宾夕法尼亚大学一团队发表在顶级期刊《美国国家科学院院刊》上的一篇文章 [1] 提出了一种层间「剥离」 的分析模型 , 对上述问题给出了一种新思路 。 基于神经网络强大的表达能力 , 该模型将网络的部分层看作一个整体 , 将其输出特征看作一个可以适应网络训练过程的优化变量 , 着重研究了特征与后继层参数在网络训练中的相互作用 。 特别的 , 在仅剥离网络最后一层的情形 , 神经网络就被简化为了下面的形式:
文章图片
Figure 1 层间剥离模型的数学表达式 。
作为这一全新分析视角的应用 , 文章对去年美国科学院院士 David Donoho 及其团队提出的神经坍缩 (Neural Collapse) 现象 [2] 给出了严格的数学解释 。 神经坍缩描述了一种当不同类的训练样本数量平衡时 , 在深层神经网络的训练过程的最终阶段 (Terminal Phase of Training) , 网络最后一层的分类器和输出特征会各自形成一种被称为简单等角紧框架(Simplex Equiangular Tight Frame) 的特殊几何结构 , 并相互之间形成联合的特殊现象 。 这一几何结构中不同类的特征与分类器的夹角达到最大值 , 更难出现不同类之间相互混淆 , 因而神经坍缩现象解释了为何深度神经网络具有良好的泛化性能和鲁棒性 , 对理解深度学习的优良性能有着重大意义 。
文章图片
Figure 2 神经坍缩现象的图示 , 红色棍代表最后一层分类器的方向 , 蓝色棍代表最后一层特征的平均值方向 , 蓝色小球代表最后一层的特征向量 , 绿色小球代表简单等角紧框架的方向 , 从左至右代表网络训练的过程 , 可以看到随着训练的进行 , 网络最后一层的特征与分类器都逐渐收敛到了简单等角紧框架的方向 。
基于前面提到的层间剥离模型 , 文章中证明了在不同类的训练样本数量平衡时神经坍缩现象的全局最优性 , 从理论上揭示了为何神经坍缩现象在深层神经网络中广泛存在 。 更进一步的 , 文章考虑了不同类的训练样本数目不平衡的情况下的层间剥离模型 , 从理论分析中发现了一种全新的现象——非均衡坍缩(Minority Collapse) 。 非均衡坍缩指出 , 当训练样本中一些类的数目较多 , 而另一些类的数目较少时 , 神经坍缩中高度对称的简单等角紧框架结构被破坏 , 样本数较多的类在损失函数中占据了主导性地位 , 从而其对应的最后一层的特征和分类器可以相互之间张成更大的角度 , 而样本数较少的类则会被挤压到一起 , 相互之间的夹角随着样本数目比例的减少而减小 。 文章中对非均衡坍缩现象给出了严格的数学刻画 , 并经过大量的实验验证了这一现象的存在 , 且实验结果与理论值严格符合 。 非均衡坍缩表明将深度学习工具用于可信人工智能时可能会引起不公平现象 。 值得注意的是 , 这个发现是深度学习中极少数完全由理论分析预测的 。 这个工作由宾夕法尼亚大学苏炜杰和其团队的方聪和何杭峰等人完成 。 值得注意的是 , 方聪博士近期已回国执教于北京大学智能科学系 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
