helm install efk-stack stable/elastic-stack set logstash.enabled=false set fluentd.enabled=true set fluentd-elastics
Альтернативой, пока не получившей большого рассмотрения являются системы, построенные на рассмотренном ранее Prometheus, например, PLG (Promtail(агент) Loki(Prometheus) Grafana).
Сравнение ElasticSearch и Sold (системы сопоставимы):
Elastic:
** Коммерческий с открытым кодом и возможность коммитить (через апрув);
** Поддерживает более сложные запросы, больше аналитики, поддержка из коробки распределенных запросов, более полный REST-full JSON-BASH, чейнинг, машинное обучение, SQL (платный);
*** Full-text search;
*** Real-time index;
*** Мониторинг (платный);
*** Мониторинг через Elastic FQ;
*** Машинное обучение (платно);
*** Простая индексация;
*** Больше типов данных и структур;
** Движок Lucene;
** Parent-child (JOIN);
** Scalable native;
** Документация с 2010;
Solr:
** OpenSource;
** Большая скорость при JOIN;
*** Full-text search;
*** Real-time index;
*** Мониторинг в админке;
*** Машинное обучение через модули;
*** Входные данные: Work, PDF и другие;
*** Необходима схемы для индексации;
*** Данные: вложенные объекты;
** Движок Lucene;
** JSON join;
** Scalable: Solar Cloud (настройка) && ZooKeeper (настройка);
** Документация с 2004.
В нынешнее время всё чаще применяется микро сервисная архитектура, которая позволяет за счёт слабой
связанности между своими компонентами и их простоты упростить их разработку, тестирование и отладку.
Но в целом систему из-за её распределённости становится сложнее анализировать. Для анализа состояния
в целом применяются логи, собираемые в централизованное место и преобразуемые в понятный вид. Также возникает
необходимость в анализе других данных, например, access_log NGINX, для сбора метрик о посещаемости, лога почты,
почтового сервера для выявления попытки подбора пароля и т.д. Примером такого решения возьмём ELK. Под ELK понимается
связка трёх продуктов: Logstash, Elasticsearch и Kubana, первый и последний из который сильно заточены на центральный и
обеспечивают удобство работы. Более обобщённо ELK называют Elastic Stack, так как инструмент подготовки логов Logstash
может быть заменён аналогом, например Fluentd или Rsyslog, а средство визуализации Kibana на Grafana. Например, хоть и
Kibana предоставляет большие возможности для анализа, Grafana предоставляет отправку уведомлений при возникновениях событий, и
может использоваться совместно с другими продуктами, например, CAdVisor анализа состояния системы и отдельных контейнеров.
Продукты EKL могут быть установлены самостоятельно, скачаны в виде самодостаточных контейнеров, для которых нужно настроить
связь или в виде одного контейнера.
Для нормальной работы Elasticsearch нужно, чтобы данные приходили в формате JSON. Если данные предавать в
текстовом формате (лог пишется одной строкой, отделяется от предыдущий переносом строки), то он сможет
предоставить только полнотекстовый поиск, так как они будут восприниматься одной строкой. Для передачи
логов в формате JSON имеется два варианта: или настроить исследуемый продукт выдавать в этом формате,
например, для NGINX имеется такая возможность. Но, зачастую это невозможно, так как имеется уже
накопленная база логов, а традиционно они пишутся в текстовом формате. Для таких случаев необходима
пост обработка логов из текстового формата в JSON, которой занимается Logstash. Важно заметить, что если
есть возможность сразу же передавать данные в структурированном виде (JSON, XML и других), то следует это
сделать, так как если сделать детальный парсинг, то любое отклонение одностороннее отклонение от формата
приведёт с неработоспособности, а при поверхностном теряем ценную информацию. В любом случае парсинг в
этот системе является узким горлышком, хотя может ограниченно масштабироваться до сервиса или лога
файла. К счастью, всё больше и больше продуктов начинают поддерживать структурированные логи, например,
последние версии NGINX поддерживает логи в JSON формате.
Для систем, не поддерживающих данный формат можно использовать преобразование к нему с помощью таких
программ, как Logstash, File bear и Fluentd. Первый из них входит в стандартную поставку Elastic Stack от вендора
и может быть установлен одним образом ELK в Docker контейнер. Он поддерживает получение данных от файлов, сети и
стандартного потока как на входе, так и на выходе, а главное нативно внутренний протокол Elastic Search.
Logstash мониторит log-файлы на основе даты изменения или получает по сети данные по telnet от распределённой