Здоровье сервиса — нулевой приоритет
Неважно, насколько хороши фичи твоего продукта, если пользователь не может ими воспользоваться или пользование ими неудобно, вызывает боль и раздражение. Первостепенная задача всех команд — обеспечить бесперебойную работу своих сервисов, ожидаемый пользователями уровень производительности и максимальный уровень защищенности.
Практики
- Команды конвертируют термин «здоровье» в конкретный набор метрик, графиков, дашбордов и мониторингов
- Мы можем срезать объём задачи, чтобы уложиться в сроки, но не жертвуем базовыми аспектами доступности, производительности и безопасности
- Если ситуация требует, фокус команды перемещается на здоровье сервиса, даже если это не было запланировано
- Требования к здоровью фичи/продукта прорабатываются на этапе проектирования, а не после релиза
- В критических ситуациях к решению инцидента могут быть привлечены все необходимые специалисты, в том числе за пределами команды, отвечающей за сервис, и за границами рабочего графика
- Во всех командах действует zero-critical-bug policy - в любой момент времени критические ошибки либо полностью отсутствуют, либо их устранение в процессе в приоритетном порядке
- Одна из ключевых метрик - скорость восстановления. Поэтому мы ищем самый быстрый способ починки, который не всегда может быть идеальным. Полноценное решение идёт следом.
Чем вдохновляться
- Глава Customer is the boss!
- Atlassian Incident Management
- Google SRE books