进一步的工作
目前提出的大多数处理尖锐的最小值/鞍点的解决方案都是围绕(a)注入各向同性噪声,或(b)保持特定的「学习率和批量尺寸」 。我认为从长远来看,这还不够 。各向同性噪声在包含「widevalley」结构的解空间中做的并不好 。增加学习率也增大了对梯度的更新,这使得权重更新得更大 。我认为正确的方法应该是想出一种有效的方法来模拟小批量噪声的各向异性,这种方法从学习率和批处理大小的组合中「解耦」出来 。存在能够使用子采样梯度信息和Hessian向量乘积去做到这一点的方法,我正在进行这个实验 。我很希望听听其它的关于如何解决这个问题的想法 。与此同时,我们还需要做大量的理论工作来更详细地理解这种动态,特别是在一个深度学习环境中 。
- 《雍正王朝》中的太后乌雅氏,为何有人给她定性为“泼妇”?
- 杨天真是哪部电视剧中的人物
- 有人说,妻子就是家中的“风水”,你认同这句话吗?为什么?
- 有人说在茫茫宇宙中的地球上人类很渺小,可以忽略不计,地球不需要人类的保护。你咋看?
- 心理疾病进行自我治疗的过程算不算禅定?
- 什么是必需氨基酸和非必需氨基酸
- 爱情进展与跑步相反
- 美女爱戴 诱惑中的减肥秘方
- 针灸减肥过程要注意些什么?
- 减肥茶中的中药有什么功效
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
