Skip to main content

Зачем централизованные логи

В распределённой системе логи размазаны по подам, нодам и сервисам. Нужно собирать их в одно место, индексировать и уметь искать по времени, уровню, полям — иначе отладка и расследование инцидентов становятся нереалистичными.

Варианты стека

Logstash/Filebeat собирают логи → Elasticsearch хранит и индексирует → Kibana для поиска и визуализации. Мощно, но тяжело в эксплуатации.
Loki хранит логи с метками (как Prometheus); запросы LogQL; сбор через Promtail или Fluent Bit. Легче по ресурсам, хорошо сочетается с Grafana.
CloudWatch Logs (AWS), Cloud Logging (GCP) — минимум настройки, интеграция с алертами и метриками облака.

Практики

  • Структурированные логи — JSON с полями (level, message, request_id, user_id); проще парсить и искать.
  • Уровни — error, warn, info, debug; не заспамивать info в production.
  • Ротация и хранение — политики хранения и удаления, чтобы не разориться на объёме.
  • Безопасность — не логировать пароли, токены, PII; маскирование при необходимости.

Что добавить сюда

  • Выбранный стек и схема сбора (какие сервисы куда шлют логи)
  • Примеры запросов (Kibana/Loki) для типовых расследований
  • Ссылки на Loki, ELK, Fluent Bit документацию