Станислава Вострикова: современные методы оптимизации в глубоком обучении

Доклад Станиславы Востриковой стал частью серии семинаров, посвящённых методологическим аспектам машинного обучения в науках о Земле. В центре внимания оказались алгоритмы оптимизации, определяющие эффективность и устойчивость обучения нейросетей: AdamW, NAdam, LARS и Muon. Были подробно рассмотрены математические особенности каждого метода, включая разделённую регуляризацию в AdamW, ускорение Нестерова в NAdam, послойное масштабирование шага в LARS и выравнивание шагов по сингулярным направлениям в Muon.

В ходе обсуждения участники отметили, что ключевой задачей современных оптимизаторов является контроль над неравномерностью и шумом в градиентах, что особенно важно при работе с разреженными данными и малыми мини-батчами. Было отмечено, что для задач, характерных для лаборатории машинного обучения в науках о Земле — с небольшими наборами данных и ограниченными ресурсами — наибольший интерес представляют модификации Adam с улучшенной регуляризацией и импульсом Нестерова. Семинар завершился обсуждением перспектив дальнейших исследований, направленных на сравнение обобщающей способности различных оптимизаторов на малых выборках климатических данных.

Станислава Вострикова
Станислава Вострикова
Исследователь, студент магистратуры МФТИ

TBA