Google-Cloud-Platform

將大型線上文件上傳到Google云

  • April 11, 2018

我想將大圖像文件上傳到Google云,以便在 RStudio 上進行機器學習。

每個圖像 zip 大約 4.7gb,解壓時間比下載時間長。我想知道有沒有一種方法可以使用目前的 Kaggle url 將圖像文件上傳到Google云,例如:https://www.kaggle.com/c/5174/download/Images_1.zip 或者https://www.kaggle.com/c/avito-duplicate-ads-detection/data在 VM RStudio 上快速提取它們以進行數據分析?

您是否在 Linux VM 中安裝了 RStudio?如果是這樣,您可以使用命令 ssh 進入您的實例sudo gcloud compute ssh <your-instance-name> --zone <your-instance-zone>,然後從您的實例內部使用wget下載文件:

wget https://www.kaggle.com/c/5174/download/Images_1.zip

wget 可能會在下載過程中斷開連接,但您可以使用上面連結中描述的選項來幫助您成功下載,例如 -t 和 -c 選項分別嘗試下載更多次或繼續獲取部分下載的文件。

下載文件後,您可以使用7ZIP將文件解壓縮到使用命令下載到的目錄中: 7z e Images_1.zip

您可以使用以下命令將文件複製到GCP 儲存桶

gsutil cp Images_1 gs://<your-bucket-name>

如果虛擬機中沒有安裝 wget 和 7zip,您可以按照wget7zip的說明安裝它們,如下所示。此範例適用於 Ubuntu 或 Debian Linux VM:

sudo apt-get update
sudo apt-get install wget
sudo apt-get install p7zip-full

只需按照安裝說明進行操作。

引用自:https://serverfault.com/questions/900373