Пятьдесят оттенков отказа: стоп-слово — Zonal Shift

Краткий пересказ от YandexGPT

В статье Александр Душеин, технический лидер команды архитекторов Yandex Cloud, рассказывает что поможет избежать нештатных ситуаций, связанных с Gray failure. Gray failure (серый, или частичный, отказ) — довольно коварная ситуация, когда система демонстрирует квазирабочее состояние. По проверкам состояния наблюдается работоспособность ресурса, но когда на него отправляют реальную нагрузку — ничего не работает. Автор рассказывает о работе по предотвращению серых отказов, проделанной в Yandex Cloud. Также он даёт рекомендации по настройкам для пользователей облачной платформы и ответственных за Disaster Recovery. Кроме того, в статье описываются инструменты для проведения учений по отказоустойчивости, которые помогают выявлять неоптимально настроенные ресурсы.

Перейти