
回复
简单来说,如果你没有足够的机器资源和时间,那么就跑到你预期的epoch,只需要保证验证集预期的准确率或其他指标满足要求即可。
如果你想追求极致的loss下降,那么你需要了解两个知识点——局部极小值和鞍点。
一般我们的loss降不了,是因为该位置的参数对损失的微分为零,导致梯度下降不再更新参数了,那么此时loss也就不会继续下降。
那么提到梯度为零的时候,我们一般想象到的是局部极小值。其实也没错,因为出现局部极小值,那么梯度=0。但有些情况,是有可能既不是局部极大值 or 局部极小值,但梯度还是=0,这个情况我们成为鞍点(因为落点的形状像马鞍,称鞍点)。
那鞍点的情况是梯度虽然为零,但还不是极小值的情况,那证明还有下降空间,只要我们逃离鞍点,就可以继续让loss下降。
参考资料: 李宏毅-《机器学习》(https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php)
本文转载自沐白AI笔记,作者:杨沐白