Когда наша команда еще занималась вопросами эксплуатации, оптимизации и масштабирования в предыдущей компании, нам приходилось иметь дело с отладкой медленно работающих приложений и целых инфраструктур, часто большого размера (представьте CNN или the World Bank). Горящие сроки, экзотические стеки технологий и недостаток информации обычно гарантировали незабываемые впечатления. Причины неполадок редко были очевидными; ниже я привожу список шагов, с которых мы обычно начинали поиск проблемы. Войдите немного в контекст Не спешите бросаться на сервера, сперва нужно выяснить, что уже известно о системе и специфике проблемы. Не стоит тратить время на поиск проблемы вслепую. Несколько обязательных вопросов, требующих ответа: Какие конкретно наблюдаются симптомы? Подвисания? Ошибки? Когда проблема была замечена впервые? Воспроизводится ли она? Есть ли закономерность (например, происходит каждый час)? Какие были последние изменения в системе (код, сервисы, стек приложений)? Влияет ли про