Skip to main content

Что такое наблюдаемость

Возможность по данным из системы (метрики, логи, трейсы) понимать, что происходит и почему что-то сломалось. Для DevOps это основа: без метрик и логов нельзя ни дебажить прод, ни реагировать на инциденты.

Три столпа

Числовые показатели во времени: CPU, память, RPS, латентность, ошибки. Хранятся компактно, подходят для графиков и алертов. Инструменты: Prometheus, CloudWatch, Datadog.
Текстовые события от приложений и ОС. Нужна централизация (ELK, Loki, CloudWatch Logs) и структура (JSON, уровни). Поиск и корреляция при инциденте.
Путь запроса через сервисы (distributed tracing). Помогают находить узкие места и сломанные звенья в микросервисах. Jaeger, Tempo, X-Ray.

Практический минимум

  1. Метрики — сбор с ключевых сервисов (приложение, БД, K8s), дашборды, алерты на падение/рост ошибок и латентности.
  2. Логи — централизованный сбор, уровни (error, warn, info), поиск по времени и полям.
  3. Алерты — кому и когда писать (PagerDuty, Slack, Telegram); правила без лишнего шума.

Что добавить сюда

  • Схема своей наблюдаемости (что куда шлёт данные)
  • Примеры алертов и runbook-ов на типовые проблемы
  • Ссылки на гайды (Prometheus, Grafana, OpenTelemetry)