Advanced Optimization

Beyond vanilla gradient descent

9 lessons · 108 min total · Prereq: Gradient Descent

Lessons

Why vanilla gradient descent struggles

Exponential moving averages

SGD with momentum

Nesterov momentum: looking ahead

AdaGrad: per-parameter learning rates

RMSprop: fixing AdaGrad

Adam: the complete derivation

Learning rate schedules: warmup and decay

Optimizer cookbook: when to use what