Data er et værdifuldt aktiv. Men for at få værdien frem, er det vigtigt at data ikke ligger stille, men sættes i anvendelse. Det kræver at data gøres tilgængelige på de rigtige platforme og transformeres til de rigtige formater. Til det har man brug Data Pipelines.
En Data Pipeline er en serie af trin, der automatiserer bevægelse og transformation af data mellem en kilde og en destination (også kaldet sink). Data Pipeline udtrækker data fra forskellige kilder, transformerer dem med baggrund i forretningslogik, og indlæser dem i en eller flere destinationer. Man kan sige at hver gang, der er en bevægelse af data fra A til B, så gennemføres der en Data Pipeline. Det er derfor et meget bredt begreb.
Det er disse bevægelser der gør, at man får værdi ud af data, og det er derfor nødvendigt at sikre god governance omkring dem.
Data Pipeline vs ETL
Ofte har Data Pipelines et analytisk formål, og man har typisk opbygget et (eller flere) Data Warehouse med høj datakvalitet og stram styring. De Data Pipelines som har et Data Warehouse som destination kaldes ETL. ETL har traditionelt flyttet data i batches efter en regelmæssig tidsplan, men det er ikke alle pipelines der skal behandles ens. Det afhænger af hvilken slags data der skal igennem, og hvordan de skal processeres. Ekstra store datamængder kræver måske batchbehandling i en Spark engine, andre data er velegnet til streaming via f.eks. Kafka eller GoldenGate, mens de fleste behov vil kunne håndteres af SQL i en relationel database.
Udbredelsen af Data Pipelines udenfor Data Warehouses sker med hastige skridt, særligt pga. at flere og flere forretningsbrugere bliver storforbrugere af data, og f.eks. vokser antallet af Data Scientists. Der stilles større krav til hastigheden, hvorpå Data Pipelines udvikles og hastigheden af data processes. Det kræver et holistisk blik på data, de teknologier der anvendes samt den governance hvorved det hele styres. DataOps giver en god ramme til at sikre dette.
Cegal har mange års erfaring i at automatisere Data Pipelines og vi udvikler ETL processer i Data Warehouse projekter hos mange af vores kunder. Vi arbejder både med streaming og store batchkørsler og kan rådgive dig ift. din Enterprise Data Arkitektur.