SGD过程中的噪声如何帮助避免局部极小值和鞍点?( 三 )


进一步的工作
目前提出的大多数处理尖锐的最小值/鞍点的解决方案都是围绕(a)注入各向同性噪声,或(b)保持特定的「学习率和批量尺寸」 。我认为从长远来看,这还不够 。各向同性噪声在包含「widevalley」结构的解空间中做的并不好 。增加学习率也增大了对梯度的更新,这使得权重更新得更大 。我认为正确的方法应该是想出一种有效的方法来模拟小批量噪声的各向异性,这种方法从学习率和批处理大小的组合中「解耦」出来 。存在能够使用子采样梯度信息和Hessian向量乘积去做到这一点的方法,我正在进行这个实验 。我很希望听听其它的关于如何解决这个问题的想法 。与此同时,我们还需要做大量的理论工作来更详细地理解这种动态,特别是在一个深度学习环境中 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。