Server 2012 重複數據刪除功能的技術細節

October 26, 2012

現在 Windows Server 2012 帶有NTFS 卷的重複數據刪除功能，我很難找到有關它的技術細節。我可以從 TechNet 文件中推斷出重複數據刪除操作本身是一個非同步過程——與SIS Groveler過去的工作方式不同——但實際上沒有關於實現的細節（使用的算法、所需的資源，甚至是關於性能的資訊注意事項不過是一堆經驗法則式的建議）。
非常感謝您的見解和指針，與一組場景的 Solaris 的 ZFS 重複數據刪除效率進行比較會很棒。

正如我所懷疑的，它基於 VSS 子系統（source），這也解釋了它的非同步性質。重複數據塊儲存在中\System Volume Information\Dedup\ChunkStore\*，設置在\System Volume Information\Dedup\Settings\*. 這對您的備份軟體與此類卷的互動方式有重大影響，這在連結文章中進行了解釋（簡而言之：不支持重複數據刪除，您的備份將與往常一樣大小，如果支持重複數據刪除，您只需備份小得多的重複數據刪除儲存）。
至於使用的方法，我能找到的最好的是微軟研究員在 2011 年在 Usenix FAST11 會議上發表的一篇研究論文（來源，全文）。第 3.3 節介紹主記憶體儲中的重複數據刪除。這些數據似乎很可能用於開發 NTFS 重複數據刪除功能。使用了這句話：
可變大小的內容定義塊的規範算法是 Rabin Fingerprints
$$ 25 $$.
論文中有很多數據需要篩選，但他們使用的工具集的複雜性，再加上我們知道的 2012 年已經存在的特性，強烈表明論文中的推理用於開發這些特性。沒有 msdn 文章無法確定，但這與我們目前可能得到的一樣接近。
與 ZFS 的性能比較將不得不等到基準測試人員完成它。

引用自：https://serverfault.com/questions/442754

Server 2012 重複數據刪除功能的技術細節

相關問答

ZFS 解釋 zdb -S tank 的輸出

磁碟大小小於容量但沒有可用空間

Windows 2012 Server如何截斷以節省磁碟空間？

目前我的 ZFS 重複數據刪除表有多大？

無法掛載駐留在 ZFS 快照上的 borg 備份儲存庫

在重複數據卷上，如何使用 Measure-DedupFileMetadata 確定文件夾中使用的空間