Datadeduplicering, även kallat dedupe, är en typ av "datareduktion", ungefär som komprimering. Det minskar mängden disk som behövs för att lagra en viss mängd data. Det görs genom att dela in all data i mindre delar, jämföra dessa delar och sedan endast lagra identiska delar en gång. När du behöver komma åt filerna byggs de om innan du lämnar disken.
Detta kan avsevärt öka mängden data du kan lagra på samma diskyta. Ett bra tillfälle att använda dedupe kan vara när man ska lagra VDI-filer (Virtual Disk Image), eftersom många av filerna mestadels är desamma och du skulle därför få en riktigt bra dedupe-ratio. Du kan också få en bra dedupe-ratio på SQL Server backupfiler, om du mestadels har data som inte ändras så mycket. Detta gäller även andra databaser.
Nackdelen är att dina återställningar tar mycket längre tid och beroende på din RTO (Recovery Time Objective) kan det bli en ”deal breaker”. En av våra kunder använder dedupe på sin backupdisk, och med deras godkännande utfördes några återställningstester så vi kunde få en uppfattning om hur stor skillnaden blir med deduplicering.
Detta test gjordes med en 10 GB databas. Det testades också både med och utan SQL-servers inbyggda backupkomprimering.
Dessa siffror fick man fram från testet. Som du kan se kan återställning från en delad disk med dedupe ta cirka 10 gånger längre tid än vid en vanlig delad disk, vilket är oerhört mycket. Det upptäckes också att återställning av en SQL-komprimerad backup-fil gick märkbart snabbare, vilket är intressant. Dessa siffror kan naturligtvis variera beroende på vilken typ av data och hur mycket du lagrar. Se till att göra dina egna återställningstester, är tiderna acceptabla?
Deduplicering kan drastiskt minska storleken på dina data, men vi rekommenderar att du lagrar dina databasbackups i en disk utan dedupe. Du kanske tror att mängden lagringsutrymme du sparar är värt det, och det kan det vara. Se bara till att du vet hur mycket tid en återställning tar på alla dina viktigaste databaser.