缺少 HTTP 引薦來源網址可以辨識網路爬蟲嗎？

November 16, 2020

我目前正在嘗試分析網站的流量。
除了有關請求的資源和時間戳的詳細資訊外，跟踪系統僅提供請求的 HTTP 引薦來源網址。
在大多數情況下，引薦來源網址為空。鑑於相關網站具有 ssl 證書，我可以假設此流量主要是由於網路爬蟲造成的嗎？
如果推薦數據不夠，我可以收集哪些額外（可訪問）數據來辨識網路爬蟲？
謝謝

嘗試將robots.txt添加到您的公共 html 目錄並進行上述設置，這將主要指示爬蟲不索引您的頁面（但這是正常的，機器人仍然可以忽略它）並檢查流量是否下降：
   User-agent: * 
   Disallow: /
因此，最好在您的 Web 伺服器中使用具有上述值的HTTP X Robots標頭標籤並測試流量：
noindex, noarchive, nosnippet, nofollow
此外，如果引用者為空，則表示已提出直接請求。
您可以使用訪問日誌來跟踪即將到來的請求並對其進行分析，或者更好地使用諸如Collectd-web 之類的工具。
編輯您的 NGINX 配置/etc/nginx/nginx.conf以配置訪問日誌：
access_log &lt;path_to_your_log_dir&gt;/access.log compression buffer=32k;
重新載入 NGINX 配置：
systemctl reload nginx 
OR 
service nginx reload

引用自：https://serverfault.com/questions/1042500

缺少 HTTP 引薦來源網址可以辨識網路爬蟲嗎？

相關問答

這種針對生產的持續流量生成叫什麼？

PRTG 可以監控 IP 流量嗎？

有沒有辦法監聽我路由器上的所有流量，例如使用 Wireshark 或 tcpdump？

連接到從外部無法訪問的 vpn 的機器

一個路由器可以處理多少個請求？

MS 消息分析器中的程序名稱