Data Wrangling, også kaldet Data Munging, kan forklares som dataafstemning eller datajustering ift. at omdanne eller kortlægge data fra en “rå” dataform til et andet format, som er mere passende eller værdifuldt ift. en række downstream såsom analyser mm. Det indebærer altså at bringe to datasæt eller uddrag fra datasæt sammen. Data Wrangling er altså en del af Data Mining.
Datasæt A kunne f.eks. bestå af personnavne, fødselsår og indkomst, mens datasæt B kunne bestå af personnavn, fødselsår og forsikringsdata. Hvis vi så kun forbinder A med B med personlige navne, kan man få mange hits på «Ola Normann», hvis vi på den anden side forbinder A med B med både personnavne og fødselsår, kan det være tilstrækkeligt og man kan dermed skabe en unik forbindelse. Det er processen omkring at udføre dette på forskellige data, som kaldes Data Wrangling.
Data Wrangling er en enkel, intuitiv måde at kompilere data med et grafisk værktøj. Målet er som nævnt at konvertere og kortlægge data fra et format til et andet format. Når man får “rå” data fra en kilde, er det ligesom med enhver anden form for råmateriale, hvis du vil have noget nyttigt ud af det, skal det behandles, f.eks. sukkerroer som leverer sukker eller råolie som leverer benzin.
De værktøjer, som er oprettet til Data Wrangling, er brugervenlige og derfor er de ikke bygget til computerforskere eller udviklere, de bruges typisk af forretningsanalytikere.
Værktøjer er f.eks. Trifacta, DataWrangler, OpenRefine, Excel – men man kan også bruge forskellige biblioteker eller pakker i programmeringssprogene Python og/eller R.
Hos Cegal benytter vores Business Intelligence (BI) teams Data Wrangling på dagligt basis. I BI-projekter skal man f.eks. nogen gange sørge for dategendannelse, som efterfølgende skal vaskes, flettes og transformeres, så dataene kan bruges til visualiseringer eller rapporter, som er nyttige for kunderne.
Hos Cegal bruges Data Wrangling til at validere dataene og til at segmentere et datasæt for at reagere på komplekse forretningsproblemer og løsninger.