Все курсы

Apache AirFlow = планировщик процессов для ETL

Практический курс Data Pipeline на Apache Airflow

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
AIRF
22 мая 2024
28 августа 2024
72 000 руб. 24 ак.часов Дистанционный
Регистрация

3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию самого популярного фреймворка для разработки, планирования и мониторинга пакетных рабочих процессов с большими данными. Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!

Что такое Apache Airflow и где это используется

Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Он позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном дата-инженером порядке.

Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.

Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.

Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.

Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
  • реализация ETL-процессов;
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Программа курса Data Pipeline на Apache Airflow

1. Введение в Airflow

  • Что такое Airflow?
  • Почему Airflow?
  • История создания
  • Аналоги и конкуренты
  • Airflow vs Oozie
  • “Киты” Airflow
  • Настройка образа в YandexCloud

2. Базовый Airflow

  • Верхнеуровневая архитектура
  • Компоненты: подробнее
  • Executors
  • LocalExecutor
  • Схема учебного стенда
  • DAG
  • DAG: параметры
  • Operators
  • Operators: виды
  • WEB UI: обзор
  • Пайплайн по созданию DAG
  • Dag: context
  • Operator: основные параметры
  • Composition
  • EmptyOperator
  • BashOperator
  • Написание первого DAG
  • TaskFlowApi
  • PythonOperator

Практика #1

  • Запуск дага с ручной конфигурацией

Практика #2

  • Variables

Практика #3

Практика #4

  • Connections
  • Sensors

Практика #5

  • ExternalTaskSensor                          

3. Расширенный Airflow

  • Trigger Rules

Практика #6

  • Backfill & catchup
  • Templates
  • Macros
  • PostgresOperator
  • Hooks

Практика #7

  • TaskGroup
  • XCOM
  • Dynamic Tasks
  • XCOM vs Variable

Practice #8

Кому нужны курсы по Airflow

Наши курсы обучения по Airflow ориентированы на инженеров данных (Data Engineer), архитекторов, DevOps-инженеров и прочих Big Data систем.

Предварительный уровень подготовки:
  • Знание базовых команд Linux (опыт работы с командной строкой, файловой
    системой , POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop
  • Средний опыт программирования SQL

Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50

Программа курса «AIRF: Data Pipeline на Apache Airflow»

Скачать программу курса «Data Pipeline на Apache Airflow» в формате pdf

Отправить ссылку на:

Кто проводит курс

prepod_kartashov_andrey
Преподаватель Школы Больших Данных

Карташов Андрей

Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ,
(Самара, 2014)
Профессиональные компетенции:
  • Разработчик Python/Data Engineer/Scala
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
  • Администрирование RHEL
  • Разработка на Python
  • Работа с мониторингом (Zabbix)
  • Data Engineer в ВымпелКом-ИТ
  • Старший аналитик/Ведущий инженер по разработке в Сбер, Самара

Отзывы наших клиентов о курсе

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту