文章图片
我们的物种很大程度上归功于对生的拇指 。 但如果进化给了我们额外的拇指 , 事情可能不会有太大改善 。 每只手一个拇指就足够了 。
>>>>
神经网络并非如此 , 这是执行类人任务的领先人工智能系统 。 随着他们变得更大 , 他们已经掌握了更多 。 这让旁观者大吃一惊 。 基本的数学结果表明 , 网络应该只需要这么大 , 但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化 。
在 12 月在领先会议 NeurIPS 上发表的一篇论文中 , 微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释 。 他们表明 , 神经网络必须比传统预期的要大得多 , 才能避免某些基本问题 。 这一发现为一个持续了几十年的问题提供了一般性的见解 。
文章图片
论文链接:https://arxiv.org/abs/2105.12806
「这是一个非常有趣的数学和理论结果 。 」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说 , 「他们以这种非常通用的方式证明了这一点 。 所以从这个意义上说 , 它会触及计算机科学的核心 。 」
对神经网络规模的标准预期来自对它们如何记忆数据的分析 。 但要了解记忆 , 我们必须首先了解网络的作用 。
神经网络的一项常见任务是识别图像中的对象 。 为了创建一个可以做到这一点的网络 , 研究人员首先为其提供许多图像和对象标签 , 对其进行训练以学习它们之间的相关性 。 之后 , 网络将正确识别它已经看到的图像中的对象 。 换句话说 , 训练使网络记住数据 。 更值得注意的是 , 一旦网络记住了足够多的训练数据 , 它还能够以不同程度的准确度预测它从未见过的物体的标签 。 后一个过程称为泛化 。
网络的大小决定了它可以记住多少 。 这可以通过图形来理解 。 想象一下 , 将两个数据点放在 xy 平面上 。 你可以将这些点与由两个参数描述的线连接起来:线的斜率和穿过垂直轴时的高度 。 如果其他人得到了这条线 , 以及一个原始数据点的 x 坐标 , 他们只需查看这条线(或使用参数)就可以计算出相应的 y 坐标 。 这条线已经记住了这两个数据点 。
神经网络做类似的事情 。 例如 , 图像由成百上千个值描述——每个像素一个值 。 这组许多自由值在数学上等价于高维空间中一个点的坐标;坐标的数量称为维度 。
一个古老的数学结果表明 , 要将 n 个数据点与曲线拟合 , 你需要一个具有 n 个参数的函数 。 (在前面的示例中 , 两个点由具有两个参数的曲线描述 。 )当神经网络在 1980 年代首次成为一股力量时 , 思考同样的事情是有道理的 。 它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何 。
「这不再是正在发生的事情 。 」德克萨斯大学奥斯汀分校的 Alex Dimakis 说 , 「现在 , 我们经常创建参数数量超过训练样本数量的神经网络 , 这意味着必须重写这些书 。 」
Bubeck 和 Sellke 并没有打算重写任何东西 。 他们正在研究神经网络通常缺乏的另一种属性 , 称为稳健性 , 这是网络处理微小变化的能力 。 例如 , 一个不健壮的网络可能已经学会了识别长颈鹿 , 但它会将一个几乎没有修改过的版本错误地标记为沙鼠 。 2019 年 , 当 Bubeck 团队意识到该问题与网络规模有关时 , 他们正在寻求证明有关该问题的定理 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
