Настройка отказоустойчивости (High Availability) в серверных ОС на основе Pacemaker и Corosync

Обеспечение бесперебойной работы серверных систем — одна из важнейших задач для любой современной IT-инфраструктуры. Когда речь идет о высоконагруженных сервисах или критически важных приложениях, малейшие сбои могут обернуться серьезными потерями. Именно поэтому на первый план выходит реализация отказоустойчивости — системы, способной продолжать работу даже в случае выхода из строя одного или нескольких её компонентов. Одним из самых популярных решений для построения отказоустойчивого кластера в Linux-среде являются связка Pacemaker и Corosync. Эта статья подробно расскажет, как настроить отказоустойчивость с помощью этих инструментов, объяснит их архитектуру и особенности настройки.

Что такое Pacemaker и Corosync

Pacemaker и Corosync — два ключевых компонента отказоустойчивых кластеров на базе Linux. Corosync отвечает за обмен информацией между узлами кластера, включая обнаружение сбоев, обмен сообщениями и синхронизацию. Он работает на уровне передачи сообщений и обеспечивает коммуникацию между участниками кластера.

Pacemaker — это менеджер ресурсов, который контролирует запуск, остановку и перенос сервисов между узлами. Его основная задача — следить за состоянием ресурсов (например, баз данных, веб-серверов или виртуальных IP-адресов) и принимать решения на основе политик, настроенных администратором. Вместе эти два инструмента образуют мощную систему управления отказоустойчивостью, способную выдерживать как программные, так и аппаратные сбои.

Архитектура кластера HA на базе Pacemaker/Corosync

Кластер, построенный на базе Pacemaker и Corosync, обычно включает от двух и более узлов. Каждый узел — это отдельная машина (физическая или виртуальная), которая входит в общую систему. Внутри кластера действует принцип голосования: при потере связи между узлами решающее значение имеет наличие кворума. Кворум определяет, сколько узлов должно остаться в строю, чтобы кластер мог продолжить функционирование. Это предотвращает так называемый «раздел мозга» (split-brain) — ситуацию, когда два сегмента кластера работают независимо друг от друга, что может привести к повреждению данных.

В качестве транспорта для сообщений между узлами используется протокол Totem в Corosync. Он обеспечивает надежную доставку сообщений и определяет, какие узлы активны в текущий момент. Все критически важные решения принимает Pacemaker, основываясь на событиях Corosync, политике обработки сбоев и приоритетах ресурсов.

Процесс установки и настройки

Перед тем как приступить к настройке отказоустойчивого кластера, необходимо подготовить серверы. На всех узлах должна быть установлена одинаковая версия операционной системы, чаще всего это CentOS, RHEL, AlmaLinux или Debian/Ubuntu. Обязательно синхронизируйте системное время через NTP и настройте одинаковые имена хостов и файл hosts, чтобы обеспечить корректную работу кластерных сервисов.

Установка пакетов производится через стандартный пакетный менеджер. В CentOS это будет:

После установки следует настроить демон управления pcs (Pacemaker/Corosync Configuration System), задать пароль для пользователя hacluster, а затем авторизоваться на всех узлах с помощью команды:

Далее инициализируется кластер:

После запуска кластера следует убедиться, что все узлы успешно подключены и видят друг друга. Для этого используется команда pcs status. Если кластер работает корректно, можно переходить к настройке ресурсов.

Добавление и управление ресурсами

Pacemaker позволяет управлять различными ресурсами — от виртуальных IP до баз данных и NFS-серверов. Все ресурсы регистрируются через команду pcs resource create. Например, чтобы добавить виртуальный IP, используйте:

Ресурсы можно объединять в группы, указывать порядок их запуска, зависимость друг от друга и даже использовать правила ограничения размещения на определённых узлах.

Pacemaker также поддерживает механизм STONITH (Shoot The Other Node In The Head) — важную защиту от split-brain. STONITH позволяет физически перезагрузить «подозрительный» узел. Обычно это реализуется через IPMI или управляемые PDU. Без активного STONITH кластер может отказаться от автоматического запуска ресурсов.

Мониторинг и отладка

Для ежедневной работы с кластером важно обеспечить постоянный мониторинг. Система предоставляет подробную информацию о состоянии кластера через команды:

pcs status — общее состояние;
crm_mon — интерактивный режим мониторинга;
pcs resource show — информация по отдельным ресурсам.

Все события кластера логируются в /var/log/cluster и syslog, а также в специальных логах Corosync и Pacemaker. В случае сбоев именно эти логи помогут определить причину аварии.

Практические советы и рекомендации

При построении отказоустойчивого кластера важно учитывать несколько ключевых моментов. Во-первых, сетевые соединения между узлами должны быть максимально надежными. Рекомендуется использовать отдельную сеть или VLAN исключительно для трафика Corosync. Во-вторых, не стоит пренебрегать тестированием — проверьте, как система реагирует на отключение одного из узлов, симулируйте потерю сети или остановку ресурса. Это поможет убедиться, что все механизмы работают как надо.

Кроме того, важно правильно настроить кворум и STONITH. Многие администраторы игнорируют эти настройки, что часто приводит к нестабильной работе кластера. Кворум помогает избежать ошибок в принятии решений, а STONITH — критически важен для защиты целостности данных.

Заключение

Настройка отказоустойчивости с использованием Pacemaker и Corosync — мощное решение для обеспечения непрерывности бизнес-процессов. Эта связка зарекомендовала себя как надежный и гибкий инструмент, позволяющий управлять как простыми сервисами, так и сложными распределенными системами. Хотя первоначальная настройка может показаться сложной, благодаря широким возможностям и активному сообществу Pacemaker и Corosync остаются одним из самых предпочтительных решений для построения отказоустойчивых кластеров на Linux.

bsdadmin.ru

Настройка отказоустойчивости (High Availability) в серверных ОС на основе Pacemaker и Corosync

Архивы

Рубрики