備份資料儲存中的資料去重是什麼
當今大型虛擬基礎架構會產生海量數據。這導致備份數據量增加,同時也推升了備份儲存基礎架構的支出,其中包含儲存設備及其維護成本。因此,網路管理員在頻繁備份關鍵機器與應用程式時,會尋求節省儲存空間的方法。
其中一種廣泛採用的技術便是備份去重。這篇部落格文章將探討何謂資料去重、去重類型,以及以備份為重點的使用情境。
什麼是資料去重?
資料去重是一項儲存容量優化技術。資料去重技術會讀取原始資料與儲存裝置中已有的資料,僅傳輸或儲存唯一的資料區塊,同時保留對重複資料的參照。透過運用此技術避免卷宗中的資料重複,可節省磁碟空間並降低儲存開銷。
資料去重技術的起源
資料去重技術的前身是 LZ77 以及 LZ78 分別於 1977 年和 1978 年提出的壓縮演算法。這些演算法透過將重複的資料序列替換為對原始序列的引用來運作。
此概念影響了其他流行的壓縮方法。其中最為人熟知的是 DEFLATE,此技術應用於 PNG 圖像及 ZIP 檔案格式中。現在讓我們來看看去重技術在虛擬機器備份中的運作原理,以及它究竟如何協助節省儲存空間與基礎架構成本。
備份中的重複資料刪除是什麼?
在備份過程中,資料去重功能會檢查來源儲存裝置與目標備份儲存庫之間是否存在相同的資料區塊。重複的資料不會被複製,而是會建立一個指向目標備份儲存裝置中現有資料區塊的參考(或稱指標)。
資料去重能為您節省多少儲存空間?
為了了解透過資料去重技術能節省多少儲存空間,讓我們來看看一個例子。安裝此系統的最低系統需求為 Windows Server 2016 至少需要 32 GB 的可用磁碟空間。如果您有十台執行此作業系統的虛擬機器,備份總容量將至少達到 320 GB,而這僅僅是一個未安裝任何應用程式或資料庫的乾淨作業系統。
若您需要部署多於一台 虛擬機器 (VM) 採用相同的系統時,您會使用一個範本,這意味著最初您將擁有十台完全相同的虛擬機器。這也表示您將獲得 10 組重複的資料區塊。在此範例中,您將獲得 10:1 的儲存空間節省比。一般而言,節省比介於 5:1 至 10:1 之間即被視為理想。
資料去重率
資料去重率是一項用於衡量原始資料大小與移除重複部分後資料大小的指標。透過此指標,您可以評估資料去重流程的成效。要計算此數值,應將去重前的資料量除以該資料經去重後所佔用的儲存空間。
舉例來說,5:1 的去重比表示您可以在備份儲存裝置中儲存五倍於未經去重處理時的需求量。
您應確定 deduplication ratio 以及 storage space reduction. 這兩個參數有時會被混淆。去重率並不會與資料壓縮效益成正比變化,因為一旦超過某個臨界點,"邊際效益遞減法則"勢必會產生影響。請參閱下圖。
這意味著較低的重複資料刪除比率所帶來的節省效果,可能比較高的比率更為顯著。舉例來說,50:1 的重複資料刪除比率並非比 10:1 的比率好五倍。10:1 的比率可將佔用的儲存空間減少 90%,而 50:1 的比率則將此數值提升至 98%,因為此時大部分的冗餘資料已遭消除。 若要進一步了解這些百分比的計算方式,您可以參閱 Storage Networking Industry Association’s (SNIA) 關於資料去重技術的文件.
影響資料去重效率的因素
由於多種因素的影響,在實際執行資料去重之前,很難預測資料壓縮效率。以下是使用去重技術時,會影響資料壓縮效率的幾項因素:
- 資料備份類型與政策. 針對 完整備份 比……更有效 漸進式 或 差分 備份.
- 匯率. 如果需要備份的資料變更量很大,則重複資料刪除率會較低。
- 保留設定. 資料備份在備份儲存裝置中存放的時間越長,該儲存裝置上的資料去重效果就越顯著。
- 資料類型. 針對已壓縮資料的檔案進行重複資料刪除,例如
JPG, PNG, MPG, AVI, MP4, ZIP, RAR……等方法並無成效。對於富含元資料及經過加密的資料,情況亦然。含有重複部分的資料類型更適合進行去重處理。 - 資料範圍. 資料去重技術在處理大量資料時效果更佳。相較於本地去重,全局去重能節省更多的儲存空間。
註: 本地重複資料刪除僅在單一節點/磁碟裝置上運作。全域重複資料刪除則會分析所有節點/磁碟裝置上的完整資料集,以消除重複資料。若您擁有多個節點,且每個節點皆啟用了本地重複資料刪除,其效率將不如為這些節點啟用全域重複資料刪除時來得高。
- 軟體與硬體。 結合軟體解決方案與重複資料刪除硬體,可提供比單純使用軟體更高的重複資料刪除率。例如,NAKIVO 的備份解決方案能提供 與……整合
HP StoreOnce,Dell EMC Data Domain,以及NEC HYDRAstor可實現高達 17:1 重複資料刪除比率的重複資料刪除裝置。
備份去重技術
備份去重技術可依據以下方面進行分類:
- 資料去重處理的執行位置
- 當重複資料刪除完成時
- 重複資料刪除的運作原理
資料去重處理的執行位置
備份去重可在來源端或目標端進行,這些技術分別稱為來源端去重與目標端去重。
源端去重
源端重複資料刪除可降低網路負載,因為在備份過程中傳輸的資料量較少。然而,這需要在每台虛擬機器或每個主機上安裝重複資料刪除代理程式。另一個缺點是,源端重複資料刪除可能會 減慢虛擬機器的速度 這是因為有需求進行計算以識別重複的資料區塊。
目標端重複資料刪除
目標端重複資料刪除會先將資料傳輸至備份儲存庫,然後執行重複資料刪除。繁重的運算任務由負責重複資料刪除的軟體來執行。
完成資料去重後
備份去重可分為線上處理或後處理。
- 內嵌式去重 在將資料寫入備份儲存庫之前,會先檢查資料是否重複。此技術能消除備份資料流中的冗餘內容,因此可減少備份儲存庫所需的儲存空間;但由於內嵌式去重是在備份工作執行期間進行,因此會導致備份時間延長。
- 後處理去重 在資料寫入備份儲存庫後進行處理。顯然,這種方法需要儲存庫內有更多的可用空間,但備份執行速度較快,且所有必要的操作都會在之後進行。後處理去重也稱為非同步去重。
資料去重是如何運作的
識別重複項最常見的方法是基於雜湊值的方法以及改良的基於雜湊值的方法。
- 隨著 基於雜湊的方法, 去重軟體會將資料分割成固定或可變長度的區塊,並使用加密演算法(例如)為每個區塊計算雜湊值
MD5, SHA-1,或SHA-256. 每種方法都會產生資料區塊的獨特指紋,因此具有相似雜湊值的區塊被視為相同。此方法的缺點在於可能需要大量的運算資源,特別是在處理大型備份時。 - 該 改良的基於雜湊的方法 使用較簡單的雜湊生成演算法,例如
CRC,其僅產生 16 位元(相較於SHA-256)。接著,如果區塊的雜湊值相似,便會進行逐位元組的比對。若完全相同,則視為這些區塊是相同的。此方法雖比基於雜湊值的方法稍慢,但所需的運算資源較少。
選擇備份去重軟體
備份去重是去重技術中最常見的使用情境之一。不過,若要實施這項資料壓縮技術,您仍需具備合適的軟體解決方案及儲存硬體。
NAKIVO Backup & Replication 這是一套備份解決方案,支援透過改良的雜湊值重複檢測技術,運用全域目標端後處理去重功能。您亦可透過整合去重裝置(例如 DELL EMC Data Domain 與 DD Boost, NEC HYDRAstor 以及 HP StoreOnce 與 Catalyst NAKIVO 解決方案的支援服務。



