Инциденты — это инвестиции в стабильность сервиса
Инциденты — неизбежный спутник активно развивающихся сервисов. С одной стороны мы яростно боремся с этой неизбежностью. С другой — гарантируем максимально быстрый и эффективный возврат инвестиций, которые бизнес, сам того не планируя, «вложил» в этот инцидент. То есть — делаем полноценные выводы, технологические и процессные изменения для повышения стабильности сервиса.
Практики
- Мы терпимы к ошибкам, но нетерпимы к отсутствию полноценных выводов из них, основанных на глубоком анализе первопричин
- Информация об инциденте и его последующем разборе должна быть донесена всей команде
- Технические лидеры доменов принимают личное участие в работе над Postmortem вместе с командой
- Мы считаем объём незапланированных инвестиций и гарантируем, что он не противоречит целям бизнеса
Чем вдохновляться
- Postmortem Culture (SRE Book)
- Error budgets (SRE Book)