Data Wrangling, også noen ganger kalt Data Munging, kan på norsk forklares som dataavstemming, datajustering eller dataarrangering. Data Wrangling er en del av Data Mining eller dataforberedelse.
Data Wrangling/dataavstemming/datajustering går ut på å bringe to datasett, eller uttrekk fra datasett sammen.
Et datasett A kan for eksempel bestå av personnavn, fødselsår og inntekt, mens datasett B kan bestå av personnavn, fødselsår og forsikringsdata. Hvis vi da kobler A med B kun med personnavn, så kan en få mange treff på «Ola Normann», hvis vi derimot kobler A med B med både personnavn og fødselsår kan dette være tilstrekkelig at en kan gjøre en entydig kobling. Det er prosessen med å utføre denne koblingen på usikre data som omtales som Data Wrangling.
Data Wrangling er en enkel, intuitiv måte å utarbeide data med et grafisk verktøy. Målet er å konvertere og kartlegge data fra ett format til et annet format. Når du får rådata fra en kilde, er det som en hvilken som helst slags råvare, hvis du vil ha noe nyttig fra det, må du behandle det, f.eks. rødbeter som gir sukker, eller råolje som gir bensin.
Verktøyene som er laget for Data Wrangling er brukervennlige, derfor er de ikke bygget for datavitenskapsfolk eller utviklere, de brukes typisk av forretningsanalytikerere.
Verktøy: Trifacta, DataWrangler, OpenRefine, til og med Excel – man kan også bruke forskjellige biblioteker eller pakker i programmeringsspråkene Python og/eller R.
Hos Cegal driver Business Intellicence (BI)-teamene våre med Data Wrangling daglig.
I BI-prosjekter, når dataene er tilgjengelige, for eksempel etter datautvinning, må man vaske, slå sammen og transformere dataene for å gjøre visualiseringer eller rapporter nyttige for kundene.
Data Wrangling i SYSCO benyttes for å validere dataene og å segmentere datasettet ditt for å svare på komplekse forretningsproblemer og løsninger.
Les mer om: Cegal sine tjenester innenfor Data og Analytics >