Для анализа данных в облаке не достаточно СУБД и средств визуализации — нужен ещё и понятный инструмент, который автоматизирует сбор, подготовку и обработку данных. На вебинаре мы расскали о таком сервисе — Apache Airflow. Эксперты Yandex Cloud обсудили:
- как спроектировать инфраструктуру для Apache Airflow;
- как собирать данные в облако для анализа и визуализации на основе Python и Spark;
- как автоматизировать обогащение данных и подготовку витрин в аналитическом хранилище на основе PostgreSQL, Greenplum и Clickhouse;
- как обеспечивать отказоустойчивость и непрерывность конвейеров данных.