日誌文件分析期間過濾蜘蛛/機器人的技術

April 9, 2015

我將首先告訴你我們做什麼。
我們實施的措施擷取了很多蜘蛛，但我們不知道我們錯過了多少。目前，我們採用了一組明顯部分重疊的措施：
監控我們的 robots.txt 文件的請求：然後當然過濾來自相同 IP 地址 + 使用者代理的所有其他請求
將使用者代理和 IP 地址與已發布的列表進行比較：iab.net 和 user-agents.org 發布了這兩個似乎最廣泛用於此目的的列表
模式分析：我們當然沒有為這些指標預設門檻值，但仍然覺得它們很有用。我們將 (i) 頁面瀏覽量視為時間的函式（即，在每個頁面上以 200 毫秒的時間點擊大量連結是有證據的）；(ii)“使用者”遍歷站點的路徑，它是系統的和完整的還是幾乎如此（如遵循回溯算法）；(iii) 定時訪問（例如，每天凌晨 3 點）。
再一次，我相當確定我們正在獲得唾手可得的果實，但我有興趣從社區獲得意見。

這些來自 Nihuo網站頁面的商業Web 日誌分析器上標記為Web 日誌分析的時事通訊文章可能是有用的閱讀。

引用自：https://serverfault.com/questions/94369

相關問答

刪除 phpMyAdmin setup.php

March 10, 2015

用於衡量搜尋爬蟲的 Web 日誌文件分析軟體

March 21, 2011

Windows-Server-2003

如何讓 Analog 只解析一周的日誌？

June 28, 2009

分析 IIS 日誌文件

June 8, 2009

Windows-Server-2016

IIS——確保部署的新版本 Web 應用程序是實際使用的程序

November 10, 2022

PHP 的 error_log 是否依賴於作業系統、配置文件或其他東西？

November 5, 2022