首页IT科技adamw优化器((Note)优化器Adam的学习率设置)

adamw优化器((Note)优化器Adam的学习率设置)

时间2025-09-19 12:01:25分类IT科技浏览29112
导读:记录一下知乎看到的问题:Adam的学习率设置...

记录一下知乎看到的问题:Adam的学习率设置

常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应                        。

从统计的角度看                      ,Adam的自适应原理也是根据统计对梯度进行修正                                    ,但依然离不开前面设置的学习率                                  。如果学习率设置的过大            ,则会导致模型发散                ,造成收敛较慢或陷入局部最小值点                                   ,因为过大的学习率会在优化过程中跳过最优解或次优解            。按照经验                  ,一开始并不会设置过大的学习率           ,而是需要根据不同的任务进行选择                  。通常默认的学习率设置为1e-3                                  。

同时神经网络的损失函数基本不是凸函数                                  ,而梯度下降法这些优化方法主要针对的是凸函数                        ,所以在优化方面深度学习的学习率会设置的比传统机器学习小得多                 。如果学习率设置过高      ,Adam优化器只会矫正梯度                                  ,而不会影响设置的初始学习率                              ,这时模型的Loss会出现较大的波动,这代表模型没有办法收敛            。

相对于SGD来说                            ,Adam的lr更加统一                                   。

即不同的task可以用一个相同的lr去调节                                    ,通用性更强;

learning rate decay很重要                      。

即使按照paper里面的原理      ,lr可自动学习已无需调整                      ,但是下降一次之后效能依然有大幅提升;

lr的decay影响远远不如SGD      。

一般来说SGD在CV问题有两次lr下降                                    ,每一次的提升都较为可观            ,但是Adam在第一次的之后后续的影响微乎其微                                    。这一点甚至在multi-scale的长周期训练中                ,Adam还不如SGD;

Reference:

https://www.zhihu.com/question/387050717

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
vuex状态机(vue下一代状态管理Pinia.js 保证你看的明明白白!)