Трансформерные модели широко применяются в разных областях и часто рассматривают пространственно-временные данные как видеоподобные последовательности благодаря успехам генеративного предсказания видео. Однако эта статья показывает, что трансформеры не всегда оптимальны для пространственно-временных данных с длинными горизонтами прогноза и выраженной периодичностью. На примере метоокеанического прогнозирования, включая морской лед, океанические и атмосферные данные, авторы сравнивают трансформерные модели со сверточными нейронными сетями. В задаче долгосрочного прогноза арктического морского льда TimeSformer и SwinLSTM не смогли воспроизвести годовую динамику, включая летнее таяние. При этом легкая CNN-модель превзошла современные численные и data-driven прогнозы, улучшив метрики ошибки до 30%. В задаче коррекции атмосферных смещений CNN также оказались сильнее, снижая ошибки в полях Global Forecast System на 20% относительно трансформеров. Ситуация меняется для океанического прогноза: трансформерные модели с контрастивным предобучением показали преимущество по всем океаническим переменным, включая снижение ошибки для глубины перемешанного слоя на 40%. Три рассмотренных случая показывают, что ограничения трансформеров существуют, но зависят от постановки задачи, тогда как CNN остаются подходящим выбором при ограниченных данных или необходимости сохранять тонкую пространственную структуру.