9999: что сделать чтобы ваш сервис стал надёжным

Поговорим о космической стабильности и отказоустойчивости. Сервисы со стабильностью 99.99. Возможно ли это? Если да, то как это реализовано в разных компаниях.

Нас с вами ждёт дискуссия о том:

— Как построить архитектуру, чтобы минимизировать вероятность проблем.
— Какие процессы нужны, чтобы добиться SLA 99.99.
— Что делать, когда всё горит.
— Что важно сделать после инцидента.