Внимание! Техподдержка работает только через тикет-систему в личном кабинете
Apache Airflow - это гибкая система для планирования и выполнения сложных процессов: от ETL-конвейеров до аналитических сценариев и ML-пайплайнов.
Установив Airflow на VPS, вы получаете независимую, защищённую среду для автоматизации задач без ограничений внешних сервисов.
Все DAG-файлы, логи, настройки и данные хранятся только на вашем сервере - под полным контролем и без рисков утечки.
Apache Airflow - это удобный инструмент для автоматизации задач и управления рабочими процессами. С его помощью можно создавать цепочки операций, запускать их по расписанию, отслеживать выполнение и быстро находить ошибки.
Установив Airflow на VPS, вы получаете собственную изолированную платформу без ограничений внешних сервисов. Все данные, файлы конфигураций, логи и результаты работы хранятся только у вас - это обеспечивает безопасность и стабильность.
Airflow подходит для аналитиков, разработчиков, DevOps-инженеров и команд, которым важно автоматизировать процессы: сбор данных, обработку файлов, загрузку в БД, обучение моделей, интеграцию с API и другие задачи. Благодаря интерфейсу Airflow вы можете легко контролировать работу DAG, перезапускать шаги, управлять зависимостями и отслеживать состояние ваших процессов в реальном времени.
Airflow на VPS позволяет запускать задачи по расписанию, отслеживать выполнение и быстро находить ошибки. Все вычисления и хранилища расположены на вашем сервере - безопасно и автономно.
Airflow работает на Python, использует базу данных (PostgreSQL или SQLite) и запускает сервисы Scheduler и Webserver, поэтому важно заранее подготовить сервер. Для стабильной работы требуется корректное окружение Python, отдельный виртуальный environment, настроенная база данных, доступные порты и достаточный объём памяти.
Перед установкой рекомендуется использовать Ubuntu 20.04 или 22.04 - эти системы полностью совместимы с Airflow.
Что необходимо сделать заранее
1. Обновить сервер:
apt update && apt upgrade -y
2. Установить Python, pip и необходимые пакеты:
apt install python3 python3-pip python3-venv build-essential libpq-dev -y
3. Проверить, что VPS имеет:
4. Подготовить доменное имя (опционально, если понадобится HTTPS).
После настройки окружения можно переходить к установке Airflow.
mkdir -p /opt/airflow
cd /opt/airflow
python3 -m venv venv
source venv/bin/activate
Airflow требует специальных ограничений для совместимости:
export AIRFLOW_VERSION=2.8.0
export PYTHON_VERSION="$(python3 -V | awk '{print $2}')"
export CONSTRAINT_URL="https://raw.githubusercontent.com/apache/airflow/constraints-${AIRFLOW_VERSION}/constraints-${PYTHON_VERSION}.txt"
Устанавливаем Airflow:
pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}"
По умолчанию используется SQLite, но для большинства задач этого достаточно.
Инициализируем базу:
airflow db init
airflow users create \
--username admin \
--firstname Admin \
--lastname User \
--role Admin \
--email admin@example.com
После этого Airflow готов к запуску.
Webserver:
airflow webserver -p 8080
Scheduler:
airflow scheduler
Панель будет доступна по адресу:
http://Ваш_IP:8080
Создаём сервис Webserver:
nano /etc/systemd/system/airflow-webserver.service
Содержимое:
[Unit]
Description=Airflow Webserver
After=network.target
[Service]
User=root
WorkingDirectory=/opt/airflow
Environment="PATH=/opt/airflow/venv/bin"
ExecStart=/opt/airflow/venv/bin/airflow webserver -p 8080
Restart=always
[Install]
WantedBy=multi-user.target
Создаём сервис Scheduler:
nano /etc/systemd/system/airflow-scheduler.service
[Unit]
Description=Airflow Scheduler
After=network.target
[Service]
User=root
WorkingDirectory=/opt/airflow
Environment="PATH=/opt/airflow/venv/bin"
ExecStart=/opt/airflow/venv/bin/airflow scheduler
Restart=always
[Install]
WantedBy=multi-user.target
Активируем:
systemctl daemon-reload
systemctl enable airflow-webserver
systemctl enable airflow-scheduler
systemctl start airflow-webserver
systemctl start airflow-scheduler
Теперь Airflow работает постоянно.
| Параметр | Рекомендация | Комментарий |
|---|---|---|
| CPU | 2 ядра | Для продакшена - 4–6 |
| RAM | 2–4 ГБ | Для крупных DAG - от 8 |
| Диск | 20–40 ГБ | Логи занимают много места |
| Порт | 8080 | Панель Airflow Web UI |
| ОС | Ubuntu 20.04/22.04 | Полная совместимость |
| Python | 3.8–3.11 | В зависимости от версии Airflow |
Apache Airflow — это система управления рабочими процессами (workflow), которая позволяет автоматизировать запуск задач, строить DAG-и, отслеживать выполнение процессов и работать с данными. Подходит для ETL, аналитики, скриптов, ML-пайплайнов и интеграций.
Да. VPS — оптимальная среда: выделенные ресурсы, стабильная работа, отсутствие ограничений и полный контроль над конфигурацией Airflow.
Базово достаточно 2 CPU, 2–4 ГБ RAM и 20–40 ГБ SSD. При увеличении количества задач, DAG-ов и воркеров ресурсы можно расширять в несколько кликов.
Да. Airflow поддерживает PostgreSQL, MySQL, SQLite и внешние БД. В рабочей среде чаще используется PostgreSQL.
Да. Вы можете установить Airflow через Docker Compose и использовать Celery для распределённой обработки задач.
