Ny ETL for Checkout Analytics

Privat aktør i bank- og betalingsbransjen | Bank og betalingstjenester

#Airflow

#Python

#RabbitMQ

#Docker

Alle pågående analytics prosjekter ble satt på vent da den tidligere ETL prosessen både ble for kompleks og ikke kunne skalere med data-volumet vi skulle håndtere. Apache Airflow ble derfor vurdert som det mest passende verktøyet for å planlegge, orkistrere og koordinere komplekse datastrømmer i henhold til kundens behov. Prosjektet kan deles inn i to deler; 1) oppsett og implementasjon av Apache Airflow og 2) utvikling av komplekse ETL pipelines for å hente ut, vaske, transformere og laste data fra kildesystemene inn i nytt system egnet for analytics. Oppsett av Apache Airlfow Airflow ble satt opp med Celery implementasjon, inkludert de komponenter som hører til dette; Webserver, Scheduler, PostgreSQL database, RabbitMQ meldingsforvalter og Workers. Komponentene ble implementert som mikrotjenester gjennom Docker og Docker Compose og custom utrullingsprosesser ble satt opp for utvikling og produksjonsmiljøer (DevOps). Implementasjon av ETL pipeline for Checkout Analytics Som en del av prosjektet ble ressurser for uthenting av historisk data tilgjengliggjort via flere ulike RESTful API'er som samlet og sammenfattet betalingsdata fra flere kilder til ett og samme JSON format. Herfra ble Airflow tatt i bruk for å implementere en pipeline for å systematisk hente ut batcher med historisk data fra API'ene, transformere og modellere dataen om til OLAP-kuber, for deretter å laste data inn i ny kilde egnet for analytics.

  • Data Engineer

    Mar. 2020 - Aug. 2020

    Small thumbnail picture of Sindre Klavestad

Klar for å starte ditt neste prosjekt med oss?

Ønsker du et pristilbud? Eller ønsker du å bli kjent med oss over en kopp kaffe? Fyll inn din e-post, så tar vi kontakt med deg.


Vi bryr oss om beskyttelse av dine data.

Les mer om vår Personvernerklæring