抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

Optimization Fails

  • local minima
  • local maxima
  • saddle point
  • critical point (gradient = 0)

image-20220916194138247

Gradient

梯度消失

Hessian

image-20220916195251839

在 saddle point 中可以指出更新方向。也许只存在于低维度,高维度就可以解决。

image-20220916210626479

Batch Size

image-20220916211549438

  • 小批次更新频率高,每次更新不够精准,但是次数足够多可以弥补。
  • 大批次更新频率低,每次更新精准
  • 越大的批次不一定越耗时,因为并行计算。但是超过一定大小耗时仍然会大幅上升。

image-20220916212405856

image-20220916212501502

image-20220916212902908

  • 大批次变化慢,倾向于落入狭窄范围内的最小点。
  • 小批次变化快,不容易约束在狭窄范围内。

image-20220916213202342

Gradient Descent & Momentum

image-20220916213604725

Learning Rate

  • loss 不再降低不代表 gradient 很低。

image-20220916214430218

  • 学习率太低导致在一个区域内聚集。

RMSProp

动态调整,避免卡在一个小范围内。

image-20220916215516397

  • Adam = RMSProp + Momentum

Softmax

image-20220916221044157

  • 差距拉大,并且最大最小都保持在 0-1 之间。

image-20220916221814724

  • Softmax 和 Cross-entropy 总是一起的。



博客内容遵循 [署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
本站总访问量为 访客数为
本站使用 Volantis 作为主题