Зачем централизованные логи
В распределённой системе логи размазаны по подам, нодам и сервисам. Нужно собирать их в одно место, индексировать и уметь искать по времени, уровню, полям — иначе отладка и расследование инцидентов становятся нереалистичными.Варианты стека
ELK (Elasticsearch, Logstash, Kibana)
ELK (Elasticsearch, Logstash, Kibana)
Logstash/Filebeat собирают логи → Elasticsearch хранит и индексирует → Kibana для поиска и визуализации. Мощно, но тяжело в эксплуатации.
Loki + Grafana
Loki + Grafana
Loki хранит логи с метками (как Prometheus); запросы LogQL; сбор через Promtail или Fluent Bit. Легче по ресурсам, хорошо сочетается с Grafana.
Облачные решения
Облачные решения
CloudWatch Logs (AWS), Cloud Logging (GCP) — минимум настройки, интеграция с алертами и метриками облака.
Практики
- Структурированные логи — JSON с полями (level, message, request_id, user_id); проще парсить и искать.
- Уровни — error, warn, info, debug; не заспамивать info в production.
- Ротация и хранение — политики хранения и удаления, чтобы не разориться на объёме.
- Безопасность — не логировать пароли, токены, PII; маскирование при необходимости.
Что добавить сюда
- Выбранный стек и схема сбора (какие сервисы куда шлют логи)
- Примеры запросов (Kibana/Loki) для типовых расследований
- Ссылки на Loki, ELK, Fluent Bit документацию