Google-Cloud-Platform
將大型線上文件上傳到Google云
我想將大圖像文件上傳到Google云,以便在 RStudio 上進行機器學習。
每個圖像 zip 大約 4.7gb,解壓時間比下載時間長。我想知道有沒有一種方法可以使用目前的 Kaggle url 將圖像文件上傳到Google云,例如:
https://www.kaggle.com/c/5174/download/Images_1.zip
或者https://www.kaggle.com/c/avito-duplicate-ads-detection/data
在 VM RStudio 上快速提取它們以進行數據分析?
您是否在 Linux VM 中安裝了 RStudio?如果是這樣,您可以使用命令 ssh 進入您的實例
sudo gcloud compute ssh <your-instance-name> --zone <your-instance-zone>
,然後從您的實例內部使用wget下載文件:wget https://www.kaggle.com/c/5174/download/Images_1.zip
wget 可能會在下載過程中斷開連接,但您可以使用上面連結中描述的選項來幫助您成功下載,例如 -t 和 -c 選項分別嘗試下載更多次或繼續獲取部分下載的文件。
下載文件後,您可以使用7ZIP將文件解壓縮到使用命令下載到的目錄中:
7z e Images_1.zip
您可以使用以下命令將文件複製到GCP 儲存桶:
gsutil cp Images_1 gs://<your-bucket-name>
如果虛擬機中沒有安裝 wget 和 7zip,您可以按照wget和7zip的說明安裝它們,如下所示。此範例適用於 Ubuntu 或 Debian Linux VM:
sudo apt-get update sudo apt-get install wget sudo apt-get install p7zip-full
只需按照安裝說明進行操作。