Traffic
缺少 HTTP 引薦來源網址可以辨識網路爬蟲嗎?
我目前正在嘗試分析網站的流量。
除了有關請求的資源和時間戳的詳細資訊外,跟踪系統僅提供請求的 HTTP 引薦來源網址。
在大多數情況下,引薦來源網址為空。鑑於相關網站具有 ssl 證書,我可以假設此流量主要是由於網路爬蟲造成的嗎?
如果推薦數據不夠,我可以收集哪些額外(可訪問)數據來辨識網路爬蟲?
謝謝
嘗試將robots.txt添加到您的公共 html 目錄並進行上述設置,這將主要指示爬蟲不索引您的頁面(但這是正常的,機器人仍然可以忽略它)並檢查流量是否下降:
User-agent: * Disallow: /
因此,最好在您的 Web 伺服器中使用具有上述值的HTTP X Robots標頭標籤並測試流量:
noindex, noarchive, nosnippet, nofollow
此外,如果引用者為空,則表示已提出直接請求。
您可以使用訪問日誌來跟踪即將到來的請求並對其進行分析,或者更好地使用諸如Collectd-web 之類的工具。
編輯您的 NGINX 配置
/etc/nginx/nginx.conf
以配置訪問日誌:access_log <path_to_your_log_dir>/access.log compression buffer=32k;
重新載入 NGINX 配置:
systemctl reload nginx OR service nginx reload