Server 2012 重複數據刪除功能的技術細節
現在 Windows Server 2012 帶有NTFS 卷的重複數據刪除功能,我很難找到有關它的技術細節。我可以從 TechNet 文件中推斷出重複數據刪除操作本身是一個非同步過程——與SIS Groveler過去的工作方式不同——但實際上沒有關於實現的細節(使用的算法、所需的資源,甚至是關於性能的資訊注意事項不過是一堆經驗法則式的建議)。
非常感謝您的見解和指針,與一組場景的 Solaris 的 ZFS 重複數據刪除效率進行比較會很棒。
正如我所懷疑的,它基於 VSS 子系統(source),這也解釋了它的非同步性質。重複數據塊儲存在 中
\System Volume Information\Dedup\ChunkStore\*
,設置在\System Volume Information\Dedup\Settings\*
. 這對您的備份軟體與此類卷的互動方式有重大影響,這在連結文章中進行了解釋(簡而言之:不支持重複數據刪除,您的備份將與往常一樣大小,如果支持重複數據刪除,您只需備份小得多的重複數據刪除儲存)。至於使用的方法,我能找到的最好的是微軟研究員在 2011 年在 Usenix FAST11 會議上發表的一篇研究論文(來源,全文)。第 3.3 節介紹主記憶體儲中的重複數據刪除。這些數據似乎很可能用於開發 NTFS 重複數據刪除功能。使用了這句話:
可變大小的內容定義塊的規範算法是 Rabin Fingerprints
$$ 25 $$.
論文中有很多數據需要篩選,但他們使用的工具集的複雜性,再加上我們知道的 2012 年已經存在的特性,強烈表明論文中的推理用於開發這些特性。沒有 msdn 文章無法確定,但這與我們目前可能得到的一樣接近。
與 ZFS 的性能比較將不得不等到基準測試人員完成它。