Authentication

如何阻止像Google這樣的爬蟲索引gitlab?

  • February 22, 2022

如何阻止任何爬蟲訪問 gitlab 上的任何內容?

應該有一個 robots.txt 或類似的東西告訴不要爬行。這將是很好的第一步。

但更重要的是,我如何告訴 gitlab 只允許經過身份驗證的訪問?例如

https://gitlab.yourdomain.com/可公開訪問

https://gitlab.yourdomain.com/explore可公開訪問

如果兩個 URL 都受到身份驗證的保護,則爬蟲甚至無法獲取任何內容。但是如何用 gitlab CE 配置呢?

更清楚地說,除了登錄對話框之外,其他任何東西都應該是公開可見的。如何用 gitlab CE 管理這個?

robots.txt儲存庫中有一個

https://gitlab.com/gitlab-org/gitlab-foss/blob/master/public/robots.txt

此外,如果您將項目可見性設置為private,您將無法在範例中的 URL 處查看項目。

正如這裡提到的,使用 robots.txt 是不夠的

  • 並非所有搜尋引擎都支持 robots.txt 指令。
  • 不同的爬蟲對語法的解釋不同。
  • 如果從其他網站連結到 robots.txt 中不允許的頁面,仍然可以將其編入索引。

所以你需要使用noindex.

引用自:https://serverfault.com/questions/1011889