Что такое наблюдаемость
Возможность по данным из системы (метрики, логи, трейсы) понимать, что происходит и почему что-то сломалось. Для DevOps это основа: без метрик и логов нельзя ни дебажить прод, ни реагировать на инциденты.Три столпа
Метрики (Metrics)
Метрики (Metrics)
Числовые показатели во времени: CPU, память, RPS, латентность, ошибки. Хранятся компактно, подходят для графиков и алертов. Инструменты: Prometheus, CloudWatch, Datadog.
Логи (Logs)
Логи (Logs)
Текстовые события от приложений и ОС. Нужна централизация (ELK, Loki, CloudWatch Logs) и структура (JSON, уровни). Поиск и корреляция при инциденте.
Трейсы (Traces)
Трейсы (Traces)
Путь запроса через сервисы (distributed tracing). Помогают находить узкие места и сломанные звенья в микросервисах. Jaeger, Tempo, X-Ray.
Практический минимум
- Метрики — сбор с ключевых сервисов (приложение, БД, K8s), дашборды, алерты на падение/рост ошибок и латентности.
- Логи — централизованный сбор, уровни (error, warn, info), поиск по времени и полям.
- Алерты — кому и когда писать (PagerDuty, Slack, Telegram); правила без лишнего шума.
Что добавить сюда
- Схема своей наблюдаемости (что куда шлёт данные)
- Примеры алертов и runbook-ов на типовые проблемы
- Ссылки на гайды (Prometheus, Grafana, OpenTelemetry)