Здоровье сервиса — нулевой приоритет

Неважно, насколько хороши фичи твоего продукта, если пользователь не может ими воспользоваться или пользование ими неудобно, вызывает боль и раздражение. Первостепенная задача всех команд — обеспечить бесперебойную работу своих сервисов, ожидаемый пользователями уровень производительности и максимальный уровень защищенности.

Практики

Команды конвертируют термин «здоровье» в конкретный набор метрик, графиков, дашбордов и мониторингов
Мы можем срезать объём задачи, чтобы уложиться в сроки, но не жертвуем базовыми аспектами доступности, производительности и безопасности
Если ситуация требует, фокус команды перемещается на здоровье сервиса, даже если это не было запланировано
Требования к здоровью фичи/продукта прорабатываются на этапе проектирования, а не после релиза
В критических ситуациях к решению инцидента могут быть привлечены все необходимые специалисты, в том числе за пределами команды, отвечающей за сервис, и за границами рабочего графика
Во всех командах действует zero-critical-bug policy - в любой момент времени критические ошибки либо полностью отсутствуют, либо их устранение в процессе в приоритетном порядке
Одна из ключевых метрик - скорость восстановления. Поэтому мы ищем самый быстрый способ починки, который не всегда может быть идеальным. Полноценное решение идёт следом.

Чем вдохновляться

Глава Customer is the boss!
Atlassian Incident Management
Google SRE books

Здоровье сервиса — нулевой приоритет #

Практики #

Чем вдохновляться #

Здоровье сервиса — нулевой приоритет

Практики

Чем вдохновляться