Zfs

Server 2012 重複數據刪除功能的技術細節

  • October 26, 2012

現在 Windows Server 2012 帶有NTFS 卷的重複數據刪除功能,我很難找到有關它的技術細節。我可以從 TechNet 文件中推斷出重複數據刪除操作本身是一個非同步過程——與SIS Groveler過去的工作方式不同——但實際上沒有關於實現的細節(使用的算法、所需的資源,甚至是關於性能的資訊注意事項不過是一堆經驗法則式的建議)。

非常感謝您的見解和指針,與一組場景的 Solaris 的 ZFS 重複數據刪除效率進行比較會很棒。

正如我所懷疑的,它基於 VSS 子系統(source),這也解釋了它的非同步性質。重複數據塊儲存在 中\System Volume Information\Dedup\ChunkStore\*,設置在\System Volume Information\Dedup\Settings\*. 這對您的備份軟體與此類卷的互動方式有重大影響,這在連結文章中進行了解釋(簡而言之:不支持重複數據刪除,您的備份將與往常一樣大小,如果支持重複數據刪除,您只需備份小得多的重複數據刪除儲存)。

至於使用的方法,我能找到的最好的是微軟研究員在 2011 年在 Usenix FAST11 會議上發表的一篇研究論文(來源全文)。第 3.3 節介紹主記憶體儲中的重複數據刪除。這些數據似乎很可能用於開發 NTFS 重複數據刪除功能。使用了這句話:

可變大小的內容定義塊的規範算法是 Rabin Fingerprints

$$ 25 $$.

論文中有很多數據需要篩選,但他們使用的工具集的複雜性,再加上我們知道的 2012 年已經存在的特性,強烈表明論文中的推理用於開發這些特性。沒有 msdn 文章無法確定,但這與我們目前可能得到的一樣接近。

與 ZFS 的性能比較將不得不等到基準測試人員完成它。

引用自:https://serverfault.com/questions/442754