Ny ETL for Checkout Analytics
Payex Norge AS | Bank og betalingstjenester
Prosjektet startet med en nødvendig revisjon av ETL-prosesser, på grunn av kompleksitet og manglende skaleringsevne. Apache Airflow ble valgt for å effektivt planlegge, orkestrere og koordinere omfattende datastrømmer. Prosjektet kan deles i to faser: 1) Oppsett og implementering av Apache Airflow, og 2) Utvikling av avanserte ETL pipelines. I oppsettfasen ble Airflow konfigurert med en Celery-implementasjon, inkludert nødvendige komponenter som webserver, scheduler, PostgreSQL database, RabbitMQ meldingsforvalter og workers. Disse ble implementert som mikrotjenester via Docker og Docker Compose, med tilpassede utrullingsprosesser for utviklings- og produksjonsmiljøer. I den andre fasen ble det fokusert på utvikling av en ETL pipeline for Checkout Analytics. Vi integrerte ressurser for uthenting av historisk data gjennom flere RESTful API'er, som standardiserte betalingsdata til et enhetlig JSON format. Ved hjelp av Airflow ble en systematisk pipeline etablert for å hente og transformere data for dimensjonsmodellering, og deretter laste data inn i en ny kilde egnet for analytics.