Кирилл Борисов
Компания: VK
После того как инцидент исправлен и влияния на сервисы нет, работа с инцидентом не заканчивается. Наша задача — не допускать повторения инцидента в будущем. Для этого мы проводим постмортемы, в рамках которых ищем корневую причину инцидента. А точно ли она одна? Может, корневых причин больше?
Рассмотрим основные и самые популярные методы root cause analysis: 5 Whys, fishbone diagram, cast. Разберемся в тонкостях и особенностях применения. Сравню инструменты и дам рекомендации по выбору подходящего инструмента в зависимости от конкретной ситуации. На примере одного инцидента рассмотрим коренные причины, используя перечисленные методы, и посмотрим, какой из них более полно описывает причины возникновения инцидента.
Анализ инцидентов необходимо проводить по совокупности корневых причин, искать пересечения в разных инцидентах. Дам практические рекомендации, как подойти к этому процессу.
Компания: VK
Компания: Купер