Dedupe

Hvad er Dedupe?

Dedupe er en forkortelse af det engelske ord deduplication, på dansk deduplikering. Deduplikering defineres som optimering af datalagring ved at fjerne unødvendige kopier af data. Et eksempel på dedupe kunne være at fjerne flere kopier af den samme fil, som er gemt i en database flere steder. I nogle lagersystemer kan dette gøres automatisk, som en måde at frigøre plads.

Dedupe var for alvor et populært begreb for år tilbage, men hvorfor er det stadigvæk væsenligt i dag, hvor storage priserne er helt i bund? Der hvor dedupe stadigvæk er meget relevant, er når det kommer til backup storage. Her kan data under ideelle omstændigheder ligge meget længe uden at blive rørt og dermed kan virksomheder altså spare mange penge ved brug deduplikering.

Deduplikation gælder for den type filer, som mange brugere i et system ofte har adgang til og dermed gemmer identiske kopier af, uafhængigt af hinanden. Eksempler på sådanne filer kan være billedfiler og PDF-filer.

Forskellige former for deduplikering:

Target deduplication – Når deduplikationen udføres på en lagerenhed, dvs. sammenkoblede diske, det kan f.eks. være som en del af et backup-system.

Post-process deduplication – Når enheden deduplikerer data, efter at filerne er blevet skrevet. Det reducerer lagerplads, men påvirker ikke netværksforbruget. Enheden kan blive fuld i tilfælde, hvor deduplikering ikke kan følge med, hvis der f.eks. er virkelig store udskrifter, som ved gennemlæsning af backup.

In-line deduplication – Dette betyder, at der sker en real-time datareduktion, når f.eks. data bliver skrevet direkte til disksystemer og data deduplikeres i samme omgang. Denne teknik reducerer risikoen for, at enheden bliver fuld ved gennemlæsning.

Source deduplication – Når deduplikering ved hjælp af software kan foretages på en klient, før der sender data over netværket. Det er værd at vide, at nogle produkter deduplikerer under en og samme backup, hvilket betyder, at mange af fordelene ved dette forsvinder.

Filer og blokke – Deduplikering bliver udført via forskellige filer og blokke, som sammenligner indholdet i den komplete fil, hvilket betyder, at filerne skal være reelle dubletter, for at de kan fjernes. Det er f.eks. ikke muligt at udføre en deduplikering af en database, som indeholder forskellige filer.

Cegal og Dedupe

Hos Cegal har vi kunder, der bruger dedupe på deres backup systemer. Vi har blandt andet udført restitutionstest for at se, hvor stor forskellen er med deduplikering. Det er nyttigt at vide, at opsving tager lang tid – og afhængigt af RTO (Recovery Time Objective) kan dette være en «deal breaker».

Læs sagen: Er det smart at bruge deduplikering på din backupdisk? >