Rsync

gsutil rsync上的同步階段慢?

  • November 3, 2015

我剛剛開始使用 GCS 作為我的 Web 伺服器的備份。一台伺服器有 120 萬張 JPEGS (3.5TB),所有這些都在 10 小時左右的時間裡完美地重新同步。

另一個有 250 萬張 JPEGS(不過只是縮略圖/預覽 - 總共 300GB)。我第一次這樣做時,“建構同步狀態”很快就通過了所有 250 萬。幾分鐘。雖然我的會話被打斷了(wifi 掉線了),當我通過 SSH 嘗試再次執行它時,“在源列表中”提示很快就超過了 10000、20000、30000。然後幾乎停止了。半個小時後,也只有三十萬了。我知道它必須弄清楚目標也有哪些文件,但我認為這不會顯著減慢“在源列表中……”的迴聲?

它是否表明我的文件系統有問題,如果是,我應該檢查什麼?

還是出於某種原因,這是預期的行為?

嘗試將 gsutil rsync 與 200 萬個文件一起使用到一個儲存桶是一個壞主意嗎?我找不到Google關於一個桶裡可以有多少文件的指導方針,所以我假設它是數十億/無限?

FWIW 文件都在嵌套的子目錄中,任何一個目錄中的文件不超過 2000 個。

謝謝

編輯:我使用的確切命令是:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www

我發現改變

output_chunk.writelines(unicode(''.join(current_chunk)))

output_chunk.write(unicode(''.join(current_chunk)))

在 /gsutil/gslib/commands/rsync.py 中有很大的不同。感謝 GS 團隊的 Mike 的幫助 - 這個簡單的更改已經在 github 上推出:

https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2

引用自:https://serverfault.com/questions/731117