计算机科学家证明，为什么更大的神经网络可以做得更好 _参数

文章图片

我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指，事情可能不会有太大改善。每只手一个拇指就足够了。
>>>>
神经网络并非如此，这是执行类人任务的领先人工智能系统。随着他们变得更大，他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明，网络应该只需要这么大，但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。
在 12 月在领先会议 NeurIPS 上发表的一篇论文中，微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明，神经网络必须比传统预期的要大得多，才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。

文章图片

论文链接：https://arxiv.org/abs/2105.12806
「这是一个非常有趣的数学和理论结果。」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说，「他们以这种非常通用的方式证明了这一点。所以从这个意义上说，它会触及计算机科学的核心。」
对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆，我们必须首先了解网络的作用。
神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络，研究人员首先为其提供许多图像和对象标签，对其进行训练以学习它们之间的相关性。之后，网络将正确识别它已经看到的图像中的对象。换句话说，训练使网络记住数据。更值得注意的是，一旦网络记住了足够多的训练数据，它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。
网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下，将两个数据点放在 xy 平面上。你可以将这些点与由两个参数描述的线连接起来：线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线，以及一个原始数据点的 x 坐标，他们只需查看这条线（或使用参数）就可以计算出相应的 y 坐标。这条线已经记住了这两个数据点。
神经网络做类似的事情。例如，图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标；坐标的数量称为维度。
一个古老的数学结果表明，要将 n 个数据点与曲线拟合，你需要一个具有 n 个参数的函数。（在前面的示例中，两个点由具有两个参数的曲线描述。）当神经网络在 1980 年代首次成为一股力量时，思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。
「这不再是正在发生的事情。」德克萨斯大学奥斯汀分校的 Alex Dimakis 说，「现在，我们经常创建参数数量超过训练样本数量的神经网络，这意味着必须重写这些书。」
Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性，称为稳健性，这是网络处理微小变化的能力。例如，一个不健壮的网络可能已经学会了识别长颈鹿，但它会将一个几乎没有修改过的版本错误地标记为沙鼠。 2019 年，当 Bubeck 团队意识到该问题与网络规模有关时，他们正在寻求证明有关该问题的定理。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。