被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程

机器之心报道
机器之心编辑部

牛津大学的这篇博士论文对神经微分方程(NDE)展开了全面细致的研究 。 论文作者表示 , 他希望这篇论文可以吸引到对深度学习与动力学系统结合感兴趣的读者 , 并希望为当前的 SOTA 研究提供有益的参考 。
在机器学习(ML)领域 , 动力学系统与深度学习的结合已经成为研究社区感兴趣的课题 。 尤其是对神经微分方程(neural differential equation, NDEs)而言 , 它证明了神经网络和微分方程是「一枚硬币的正反面」 。
传统的参数化微分方程是特例 , 残差网络和循环网络等很多流行的神经网络架构呈现离散化 。 神经微分方程能够提供高容量的函数近似 , 在模型空间上表现出强先验 , 有能力处理不规则数据 , 还具有很高的内存效率 。
神经微分方程尤其适用于解决物理、金融等领域的生成问题、动力学系统和时间序列问题 , 因此现代机器学习和传统数学建模中都乐于使用它 。
近日 , 一篇专门探讨神经微分方程的博士论文《 On Neural Differential Equations》吸引了领域内研究者的注意 , 谷歌 AI 负责人、知名学者 Jeff Dean 也点赞推荐 。 这篇论文的 examiner 甚至褒赞它为「神经微分方程的教科书」 。
论文作者为牛津大学数学研究所的博士生 Patrick Kidger , 他的主要研究兴趣在于神经微分方程以及更广泛的深度学习和时间序列 。 他希望这篇论文可以吸引到任何对深度学习与动力学系统结合感兴趣的读者 , 并希望为当前的 SOTA 研究提供有益的参考 。
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程
文章图片

论文地址:https://arxiv.org/pdf/2202.02435.pdf
这篇博士论文的主要内容包括如下:
  • 神经常微分方程(neural ordinary diffeqs):用于学习物理系统 , 作为离散架构的连续时间限制 , 包括对可表达性的理论结果;
  • 神经受控微分方程(neural controlled diffeqs):用于建模时间序列函数、处理不规则数据;
  • 神经随机微分方程(neural stochastic diffeqs):用于从复杂的高维随机动态中采样;
  • 数值法(numerical methods):一类新的可逆微分方程求解器或布朗重建(Brownian reconstruction)问题 。
此外 , 这篇论文还涉及了其他一些主题 , 比如用于动力学系统的符号回归(如通过正则化演化)、深度隐式模型(如深度均衡模型、可微优化) 。
在回答网友的提问「为什么神经微分方程如此重要」时 , 作者表示 , 「神经微分方程将当前使用的两种主流建模方法——神经网络和微分方程结合在一起 , 为我们提供了很多在神经网络和微分方程中使用得很好的理论 , 并在物理、金融、时间序列和生成建模等领域获得了直接的实际应用 。 」
【被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程】机器之心对该论文的核心内容进行了简要介绍 。
论文概览
阅读这篇论文需要掌握的预备知识包括常微分方程(ODE)和深度学习的基础知识 。 论文中归纳神经微分方程的 4 个主要应用为:
  • 物理建模;
  • 时间序列;
  • 生成式建模;
  • 一种开发深度学习模型的策略:取适当的微分方程并将其离散化 。
神经微分方程提供了一种两全其美的方法 。 类似于神经网络的结构提供了高容量的函数近似和易于训练的性能 。 类似于微分方程的结构则通过易于理解和久经考验的理论文献为模型空间、内存效率和理论理解提供了强有力的先验知识 。 相对于经典微分方程理论 , 神经微分方程本质上具有前所未有的建模能力 。 相对于现代深度学习 , 神经微分方程提供了一个关于「什么是好的模型」的连贯理论 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。