Наблюдаемость (Observability)

Что такое наблюдаемость

Возможность по данным из системы (метрики, логи, трейсы) понимать, что происходит и почему что-то сломалось. Для DevOps это основа: без метрик и логов нельзя ни дебажить прод, ни реагировать на инциденты.

Три столпа

Метрики (Metrics)

Числовые показатели во времени: CPU, память, RPS, латентность, ошибки. Хранятся компактно, подходят для графиков и алертов. Инструменты: Prometheus, CloudWatch, Datadog.

Логи (Logs)

Текстовые события от приложений и ОС. Нужна централизация (ELK, Loki, CloudWatch Logs) и структура (JSON, уровни). Поиск и корреляция при инциденте.

Трейсы (Traces)

Путь запроса через сервисы (distributed tracing). Помогают находить узкие места и сломанные звенья в микросервисах. Jaeger, Tempo, X-Ray.

Практический минимум

Метрики — сбор с ключевых сервисов (приложение, БД, K8s), дашборды, алерты на падение/рост ошибок и латентности.
Логи — централизованный сбор, уровни (error, warn, info), поиск по времени и полям.
Алерты — кому и когда писать (PagerDuty, Slack, Telegram); правила без лишнего шума.

Prometheus и Grafana

Сбор метрик и визуализация.

Логирование

Централизованные логи: стек и практики.

Что добавить сюда

Схема своей наблюдаемости (что куда шлёт данные)
Примеры алертов и runbook-ов на типовые проблемы
Ссылки на гайды (Prometheus, Grafana, OpenTelemetry)

Старт

Основы

Контейнеры и оркестрация

CI/CD

Infrastructure as Code

Облака

Мониторинг и логи

Безопасность

Карьера

Наблюдаемость (Observability)

Что такое наблюдаемость

Три столпа

Практический минимум

Prometheus и Grafana

Логирование

Что добавить сюда

Старт

Основы

Контейнеры и оркестрация

CI/CD

Infrastructure as Code

Облака

Мониторинг и логи

Безопасность

Карьера

​Что такое наблюдаемость

​Три столпа

​Практический минимум

Prometheus и Grafana

Логирование

​Что добавить сюда

Что такое наблюдаемость

Три столпа

Практический минимум

Что добавить сюда