如果散列受 CPU 限制，如何檢查大文件的身份？

March 28, 2019

對於小文件，散列是可以的，但是對於大文件，你可以很容易地發現md5sum它是 CPU 限制的。是否有任何散列算法能夠在多核上橫向擴展？任何解決方法？想法？任何事物？:)

我自己目前最好的解決方案是：
parallel --block=512M --pipepart -a …HUGEFILE… --progress --recend '' \ -k -j …NUMofProcessesSay4… md5sum | md5sum
應當指出的是：
生成的 md5 雜湊不是文件的，而是其部分的 md5，但它仍然允許您比較副本是否與原點相同
它的性能也不是很好，特別是當您使用pipe而不是文件作為輸入時
parallel我--pipepart發現不支持磁碟分區
所以我也很想听聽其他方式。

引用自：https://serverfault.com/questions/786338

相關問答

vmail_ssl.map.db 中格式錯誤的 BASE64 值

October 19, 2022

Central-Processing-Unit

CPU硬體：更多的核心意味著在某些時候更低的頻率？

August 8, 2022

Google-Cloud-Platform

我們可以在創建後編輯 bigquery 表的模式嗎？

March 31, 2022

Google-Compute-Engine

為什麼在創建 e2-small 時它顯示它有 2 個 vCPU，而在檢查配置時它顯示它只有 1 個 vCPU

March 12, 2022

什麼相當於powershell上的taskset？

November 19, 2021

如何使用 samba 克服較弱的 MD4 雜湊問題

August 19, 2021