Русские видео

Сейчас в тренде

Иностранные видео


Скачать с ютуб Владимир Верстов: DSL для ETL в DMP или чего нам не хватило в Airflow или другом готовом решении? в хорошем качестве

Владимир Верстов: DSL для ETL в DMP или чего нам не хватило в Airflow или другом готовом решении? 3 года назад


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса savevideohd.ru



Владимир Верстов: DSL для ETL в DMP или чего нам не хватило в Airflow или другом готовом решении?

Data Fest Online 2020 SysML track https://ods.ai/tracks/sysml-df2020 В open source мире существует множество инструментов для запуска, шедулинга и управления ETL процессами: Airflow, Luigi, Metaflow, ... Все они сосредоточены на описании зависимостей между тасками и графами, но не на том, что непосредственно происходит с данными внутри этих тасков и графов. Мы пошли от обратного и прежде всего выделили основные сущности любого ETL процесса: это таблицы и таски, которые читают данные, их преобразуют и прогружают в таблицы. Мы разработали свой DSL на python для единообразного описания таблиц в YT (in-house аналог Hadoop, Greenplum и ClickHouse) и тасков для MapReduce, Spark, разных SQL-диалектов (3 штуки) и голого python. В докладе я расскажу: - почему мы решили писать свой "велосипед" - что находится "под капотом" нашего ETL фреймворка - некоторые особенности ETL процессов в DMP Такси, Еды и Лавки, которые ежеминутно, ежечасно и ежедневно трудятся во благо аналитики и управленческой отчетности Посмотреть эфир и список треков и организаторов: https://datafest.ru/2020/ Зарегистрироваться на фест и получить доступ к трекам: https://ods.ai/events/datafest2020 Вступить в сообщество: https://ods.ai/ Соцсети Data Fest: https://t.me/datafest https://vk.com/datafest

Comments