计算机科学家证明,为什么更大的神经网络可以做得更好( 二 )


Bubeck 说:「我们正在研究对抗性的例子——然后规模就强加给了我们 。 我们认识到这是一个难以置信的机会 , 因为需要了解规模本身 。 」
在他们的新证明中 , 这对表明过度参数化对于网络的稳健性是必要的 。 他们通过计算将数据点与曲线拟合所需的参数来做到这一点 , 该曲线具有与稳健性等效的数学属性:平滑度 。
为了看到这一点 , 再次想象平面中的一条曲线 , 其中 x 坐标代表单个像素的颜色 , y 坐标代表图像标签 。 由于曲线是平滑的 , 如果稍微修改像素的颜色 , 沿着曲线移动一小段距离 , 相应的预测只会发生很小的变化 。 另一方面 , 对于极度锯齿状的曲线 , x 坐标(颜色)的微小变化会导致 y 坐标(图像标签)的剧烈变化;长颈鹿可以变成沙鼠 。
Bubeck 和 Sellke 表明 , 平滑拟合高维数据点不仅需要 n 个参数 , 还需要 n × d 个参数 , 其中 d 是输入的维度(例如 , 784 表示 784 像素的图像) 。 换句话说 , 如果你想让网络健壮地记住它的训练数据 , 过度参数化不仅有帮助——它是强制性的 。 证明依赖于一个关于高维几何的奇怪事实 , 即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径 。 点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数 。
耶鲁大学的 Amin Karbasi 说:「证明是非常初级的——没有繁重的数学 , 它说明了一些非常笼统的东西 。 」
结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效 。
其他研究揭示了过度参数化有帮助的其他原因 。 例如 , 它可以提高训练过程的效率 , 以及网络的泛化能力 。 虽然我们现在知道过度参数化对于稳健性是必要的 , 但尚不清楚稳健性对于其他事物的必要性 。 但是通过将其与过度参数化联系起来 , 新的证明暗示稳健性可能比想象的更重要 , 一个可以释放许多好处的单一密钥 。
「稳健性似乎是泛化的先决条件 。 」Bubeck 说 , 「如果你有一个系统 , 你只是稍微扰乱它 , 然后它就失控了 , 那是什么样的系统?这是不合理的 。 我确实认为这是一个非常基础和基本的要求 。 」
相关报道:
https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/
—版权声明—
来源:图灵人工智能 , 编辑:nhyilin
仅用于学术分享 , 版权属于原作者 。
若有侵权 , 请联系微信号:Eternalhui或nhyilin删除或修改!
—THE END—
? 量子力学的路径积分和退相干诠释
【计算机科学家证明,为什么更大的神经网络可以做得更好】? 量子力学英雄谱
? 代数、几何、分析 各自的范畴
? 谁说女子不如男?十位高颜值 , 高智商的最美女科学家学霸!
? 16岁考上哈佛 , 25岁成最年轻教授 , 他是美国史上最难抓的疯子
? 人类史上20个“最强大脑”

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。