Traffic

缺少 HTTP 引薦來源網址可以辨識網路爬蟲嗎?

  • November 16, 2020

我目前正在嘗試分析網站的流量。

除了有關請求的資源和時間戳的詳細資訊外,跟踪系統僅提供請求的 HTTP 引薦來源網址。

在大多數情況下,引薦來源網址為空。鑑於相關網站具有 ssl 證書,我可以假設此流量主要是由於網路爬蟲造成的嗎?

如果推薦數據不夠,我可以收集哪些額外(可訪問)數據來辨識網路爬蟲?

謝謝

嘗試將robots.txt添加到您的公共 html 目錄並進行上述設置,這將主要指示爬蟲不索引您的頁面(但這是正常的,機器人仍然可以忽略它)並檢查流量是否下降:

   User-agent: * 
   Disallow: /

因此,最好在您的 Web 伺服器中使用具有上述值的HTTP X Robots標頭標籤並測試流量:

noindex, noarchive, nosnippet, nofollow

此外,如果引用者為空,則表示已提出直接請求

您可以使用訪問日誌來跟踪即將到來的請求並對其進行分析,或者更好地使用諸如Collectd-web 之類的工具。

編輯您的 NGINX 配置/etc/nginx/nginx.conf以配置訪問日誌:

access_log <path_to_your_log_dir>/access.log compression buffer=32k;

重新載入 NGINX 配置:

systemctl reload nginx 
OR 
service nginx reload

引用自:https://serverfault.com/questions/1042500