NAKIVO > Bloggen

Was ist Deduplizierung im Speicher für Backups?

Veröffentlicht am: Mai 22, 2017

Written by: NAKIVO Team

NAKIVO for VMware vSphere Backup

Complete data protection for VMware vSphere VMs and instant recovery options. Secure backup targets onsite, offsite and in the cloud. Anti-ransomware features.

DISCOVER SOLUTION

Was ist Deduplizierung?

Datendeduplizierung ist eine Technologie zur Optimierung der Speicherkapazität. Bei der Datendeduplizierung werden die Daten aus der Quelle und die bereits gespeicherten Daten gelesen, um nur eindeutige Datenblöcke zu übertragen oder zu speichern. Verweise auf die doppelten Daten bleiben erhalten. Durch den Einsatz dieser Technologie zur Vermeidung von Duplikaten auf einer Festplatte können Sie Speicher sparen und den Speicheraufwand reduzieren.

Ursprünge der Datendeduplizierung

Die Vorläufer der Datendeduplizierung sind die 1977 bzw. 1978 eingeführten Komprimierungsalgorithmen LZ77 und LZ78. Dabei werden wiederholte Datensequenzen durch Verweise auf die ursprünglichen Daten ersetzt.

Dieses Konzept beeinflusste andere beliebte Komprimierungsmethoden. Die bekannteste davon ist DEFLATE, die in PNG-Bild- und ZIP-Dateiformaten verwendet wird. Sehen wir uns nun an, wie Deduplizierung bei VM-Backups funktioniert und wie genau sie dazu beiträgt, Speicherplatz und Kosten für die Infrastruktur zu sparen.

Was ist Deduplizierung bei Backups?

Bei einem Backup überprüft die Datendeduplizierung, ob identische Datenblöcke zwischen dem Quellspeicher und dem Ziel-Backup-Repository vorhanden sind. Duplikate werden nicht kopiert, sondern es wird ein Verweis oder Zeiger auf die vorhandenen Datenblöcke im Zielspeicher für das Backup erstellt.

Wie viel Speicherplatz können Sie durch Datendeduplizierung einsparen?

Um zu verstehen, wie viel Speicherplatz durch Deduplizierung gewonnen werden kann, betrachten wir ein Beispiel. Die Mindestsystemanforderungen für die Installation von Windows Server 2016 betragen mindestens 32 GB freier Festplattenspeicher. Wenn Sie zehn VMs mit diesem Betriebssystem haben, belaufen sich die Backups auf insgesamt mindestens 320 GB, und das ist nur ein sauberes Betriebssystem ohne Anwendungen oder Datenbanken.

Wenn Sie mehr als eine Virtuelle Maschine (VM) mit demselben System bereitstellen müssen, werden Sie wahrscheinlich eine Vorlage verwenden, was bedeutet, dass Sie zunächst zehn identische Maschinen haben. Das bedeutet auch, dass Sie 10 Sätze doppelter Datenblöcke erhalten. In diesem Beispiel haben Sie eine Platzersparnis von 10:1. Im Allgemeinen gelten Einsparungen im Bereich von 5:1 bis 10:1 als gut.

Daten-Deduplizierungsrate

Die Daten-Deduplizierungsrate ist eine Kennzahl, mit der die ursprüngliche Größe der Daten im Vergleich zur Größe der Daten nach Entfernung redundanter Teile gemessen wird. Anhand dieser Kennzahl können Sie die Effektivität des Daten-Deduplizierungsprozesses bewerten. Um den Wert zu berechnen, müssen Sie die Datenmenge vor der Deduplizierung durch den Speicherplatz dividieren, den diese Daten nach der Deduplizierung belegen.

Ein Deduplizierungsverhältnis von 5:1 bedeutet beispielsweise, dass Sie fünfmal mehr gesicherte Daten in Ihrem Backup-Speicher ablegen können, als ohne Deduplizierung erforderlich wäre.

Sie sollten das Deduplizierungsverhältnis und die Speicherplatzreduzierungbestimmen. Diese beiden Parameter werden manchmal verwechselt. Deduplizierungsverhältnisse ändern sich nicht proportional zu den Vorteilen der Datenreduzierung, da ab einem bestimmten Punkt das Gesetz des abnehmenden Ertrags zum Tragen kommt. Siehe die folgende Grafik.

Das bedeutet, dass niedrigere Verhältnisse zu größeren Einsparungen führen können als höhere. Beispielsweise ist ein Deduplizierungsverhältnis von 50:1 nicht fünfmal besser als ein Verhältnis von 10:1. Das Verhältnis von 10:1 sorgt für eine Reduzierung des belegten Speichers um 90 %, während das Verhältnis von 50:1 diesen Wert auf 98 % erhöht, da der größte Teil der Redundanz bereits beseitigt wurde. Weitere Informationen zur Berechnung dieser Prozentsätze finden Sie unter Dokument der Storage Networking Industry Association (SNIA) zur Datendeduplizierung.

Faktoren, die die Effizienz der Datendeduplizierung beeinflussen

Aufgrund verschiedener Faktoren ist es schwierig, die Effizienz der Datenreduzierung vorherzusagen, bevor die Daten tatsächlich dedupliziert wurden. Im Folgenden sind einige der Faktoren aufgeführt, die sich bei der Verwendung der Deduplizierung auf die Datenreduktion auswirken:

Arten und Richtlinien für Backups. Die Deduplizierung für vollständige Backups ist effektiver als für inkrementelle oder differenzielle Backups.
Änderungsrate. Wenn viele Datenänderungen zu sichern sind, ist die Deduplizierungsrate geringer.
Aufbewahrungseinstellungen. Je länger Sie Backups im Backup-Speicher aufbewahren, desto effektiver kann die Deduplizierung der Daten auf diesem Speicher sein.
Datentyp. Die Deduplizierung von Dateien, deren Daten bereits komprimiert wurden, wie JPG, PNG, MPG, AVI, MP4, ZIP, RAR usw., ist nicht effektiv. Gleiches gilt für metadatenreiche und verschlüsselte Daten. Datentypen, die wiederholende Teile enthalten, eignen sich besser für die Deduplizierung.
Datenumfang. Die Datendeduplizierung ist bei einem großen Datenumfang effektiver. Die globale Deduplizierung kann im Vergleich zur lokalen Deduplizierung mehr Speicherplatz sparen.

Hinweis: Die lokale Deduplizierung funktioniert auf einem einzelnen Knoten/Festplattengerät. Die globale Deduplizierung analysiert den gesamten Datensatz auf allen Knoten/Festplattengeräten, um Datenduplikate zu eliminieren. Wenn Sie mehrere Knoten haben, auf denen jeweils die lokale Deduplizierung aktiviert ist, ist die Deduplizierung nicht so effizient wie bei einer globalen Deduplizierung.

Software und Hardware. Die Kombination von Softwarelösungen und Deduplizierungshardware kann bessere Deduplizierungsraten bieten als Software allein. Beispielsweise bietet die Backup-Lösung von NAKIVO eine Integration mit HP StoreOnce, EMC Daten-Domäne und NEC HYDRAstor Deduplizierungs-Geräte für Deduplizierungsraten von bis zu 17:1.

Techniken zur Backup-Deduplizierung

Die Techniken zum Backup und zur Deduplizierung lassen sich anhand der folgenden Kriterien kategorisieren:

Wo die Datendeduplizierung erfolgt
Wenn die Deduplizierung erfolgt ist
Wie die Deduplizierung erfolgt

Wo die Datendeduplizierung erfolgt

Die Backup-Deduplizierung kann auf der Quelle oder auf der Zielseite erfolgen, wobei diese Techniken als quellenseitige Deduplizierung bzw. zielseitige Deduplizierung bezeichnet werden.

Quellseitige Deduplizierung

Die quellseitige Deduplizierung verringert die Netzwerkbelastung, da während des Backups weniger Daten übertragen werden. Allerdings muss dafür auf jeder VM oder jedem Host ein Deduplizierungsagent installiert werden. Ein weiterer Nachteil ist, dass die Quellseite die Deduplizierung durchführt und dies die VMs verlangsamen kann , da für die Identifizierung doppelter Datenblöcke Berechnungen erforderlich sind. > The source-side data deduplication for backup

Zielseitige Deduplizierung

Bei der zielseitigen Deduplizierung werden die Daten zunächst in das Backup-Repository übertragen und anschließend dedupliziert. Die rechenintensiven Aufgaben werden von der für die Deduplizierung zuständigen Software ausgeführt.

Wenn die Datendeduplizierung abgeschlossen ist

Die Backup-Deduplizierung kann inline oder nachträglich erfolgen.

Bei der Inline-Deduplizierung wird vor dem Schreiben in ein Backup-Repository auf doppelte Daten geprüft. Diese Technik erfordert weniger Speicher im Backup-Repository, da sie den Backup-Datenstrom von Redundanzen befreit, führt jedoch zu einer längeren Backup-Dauer, da die Inline-Deduplizierung während des Backupauftrags erfolgt.
Nachbearbeitungs-Deduplizierung verarbeitet Daten, nachdem sie in das Backup-Repository geschrieben wurden. Dieser Ansatz erfordert natürlich mehr freien Speicherplatz im Repository, aber die Backups laufen schneller und alle erforderlichen Vorgänge werden nachträglich durchgeführt. Die Nachbearbeitung zur Deduplizierung wird auch als asynchrone Deduplizierung bezeichnet.

Wie die Datendeduplizierung durchgeführt wird

Die gängigsten Methoden zur Identifizierung von Duplikaten sind die hashbasierte und die modifizierte hashbasierte Methode.

Bei der hash-basierten Methodeteilt die Deduplizierungssoftware die Daten in Blöcke fester oder variabler Länge auf und berechnet für jeden Block einen Hashwert unter Verwendung kryptografischer Algorithmen wie MD5, SHA-1 oder SHA-256. Jede dieser Methoden liefert einen eindeutigen Fingerabdruck der Datenblöcke, sodass Blöcke mit ähnlichen Hashwerten als identisch angesehen werden. Der Nachteil dieser Methode besteht darin, dass sie insbesondere bei großen Backups erhebliche Rechenressourcen erfordern kann.
Die modifizierte hash-basierte Methode verwendet einfachere Hash-Generierungsalgorithmen wie CRC, die nur 16 Bit erzeugen (im Vergleich zu 256 Bit bei SHA-256). Wenn die Blöcke ähnliche Hashes haben, werden sie byteweise verglichen. Wenn sie vollständig identisch sind, werden die Blöcke als identisch angesehen. Diese Methode ist etwas langsamer als die hashbasierte, benötigt jedoch weniger Rechenressourcen.

Auswahl einer Software zur Backup-Deduplizierung

Die Backup-Deduplizierung ist einer der beliebtesten Verwendungsfälle für Deduplizierung. Dennoch benötigen Sie die geeignete Softwarelösung und Hardware für den Speicher, um diese Datenreduktionstechnologie zu implementieren.

NAKIVO Backup & Replication ist eine Backup-Lösung, die die Verwendung der globalen Ziel-Nachbearbeitungs-Deduplizierung mit modifizierter Hash-basierter Duplikaterkennung unterstützt. Sie können auch die Vorteile der quellseitigen Deduplizierung nutzen, indem Sie ein Deduplizierungs-Gerät wie EMC Daten-Domäne mit DD Boost, NEC HYDRAstor und HP StoreOnce mit Catalyst-Support in die NAKIVO-Lösung integrieren.

1 Year of Free Data Protection: NAKIVO Backup & Replication

Deploy in 2 minutes and protect virtual, cloud, physical and SaaS data. Backup, replication, instant recovery options.

Get the Free Edition

Empfohlene Artikel