Доклад архитектора решений Okmeter (https://okmeter.ru/) Владимира Гурьянова на DevOpsConf 2023. Владимир рассказывает про паттерны, которые лежат в основе любой современной базы данных временных рядов (TSDB), почему именно Prometheus с TSDB под капотом стал стандартом, и какую архитектуру мониторинга выбрать в зависимости от текущих потребностей компании.
Текстовый обзор доклада: https://habr.com/ru/companies/flant/a...
Презентация: https://speakerdeck.com/flant/mimo-ti...
(0:00) Intro
(2:15) Про Zabbix и инфраструктуру, для которой эта система создавалась
(3:40) Как выглядит современная ИТ-инфраструктура
(4:35) Какая система мониторинга отвечает современным потребностям
(6:00) Что умеет Prometheus и справляется ли он с этими потребностями
(11:33) Как устроена TSDB
(13:05) Собираем данные из всех источников в разные файлы
(16:50) Собираем данные в один файл
(19:00) Используем RAM, чтобы улучшить процесс чтения-записи (LSMT-подход)
(22:22) Роль LabelSet в идентификации данных
(25:34) Рисуем график
(29:07) Мониторинг с стартапе
(31:00) Мониторинг в небольшой компании + ограничения Prometheus
(36:48) Мониторинг в корпорации
(38:23) Централизация метрик с помощью Thanos / Cortex / Mimir
(40:47) Централизованное хранилище метрик на примере Mimir
(42:22) Запись метрик
(43:58) Чтение метрик
(45:02) Storage gateway
(46:51) Надежность и масштабируемость Mimir
(48:51) Плюсы и минусы Mimir
(50:41) Сравнительная таблица решений
(51:43) Q&A