Data er en verdifull ressurs. Men for å få frem verdien er det viktig at data ikke ligger i dvale, men tas i bruk. Det krever at data gjøres tilgjengelig på de riktige plattformene og omdannes til de riktige formatene. Til det trenger du Data Pipelines.
En datapipeline er en serie trinn som automatiserer bevegelse og transformasjon av data mellom en kilde og en destinasjon (også kalt en vask). Data Pipeline trekker ut data fra ulike kilder, transformerer dem basert på forretningslogikk og laster dem inn i en eller flere destinasjoner. Det kan sies at hver gang det er en bevegelse av data fra A til B, utføres en Data Pipeline. Det er derfor et veldig vidt begrep.
Det er disse bevegelsene som gjør at du får verdi ut av data, og det er derfor nødvendig å sikre god styring rundt dem.
Datapipeline vs ETL
Datapipelines har ofte et analytisk formål, og ett (eller flere) datavarehus har typisk blitt bygget med høy datakvalitet og streng styring. Datarørledningene som har et datavarehus som destinasjon kalles ETL. ETL har tradisjonelt flyttet data i batcher i henhold til en vanlig tidsplan, men ikke alle rørledninger trenger å behandles likt. Det kommer an på hva slags data som skal gjennom og hvordan de skal behandles. Ekstra store datamengder kan kreve batchbehandling i en Spark-motor, andre data egner seg for streaming via f.eks. Kafka eller GoldenGate, mens de fleste behov kan håndteres av SQL i en relasjonsdatabase.
Utbredelsen av Data Pipelines utenfor Data Warehouses skjer i et raskt tempo, spesielt på grunn av at stadig flere bedriftsbrukere blir storforbrukere av data, og f.eks. antallet Data Scientists vokser. Det stilles større krav til hastigheten Data Pipelines utvikles med og hastigheten på dataprosessene. Det krever et helhetlig syn på data, teknologiene som brukes og styringen som alt administreres med. DataOps gir et godt rammeverk for å sikre dette.
Cegal og Data Pipeline
Cegal har mange års erfaring med å automatisere Data Pipelines og vi utvikler ETL-prosesser i Data Warehouse-prosjekter hos mange av våre kunder. Vi jobber med både streaming og store batchkjøringer og kan gi deg råd om Enterprise Data Architecture.