Log-Files

日誌文件分析期間過濾蜘蛛/機器人的技術

  • April 9, 2015

我將首先告訴你我們做什麼。

我們實施的措施擷取了很多蜘蛛,但我們不知道我們錯過了多少。目前,我們採用了一組明顯部分重疊的措施:

  1. 監控我們的 robots.txt 文件的請求:然後當然過濾來自相同 IP 地址 + 使用者代理的所有其他請求
  2. 將使用者代理和 IP 地址與已發布的列表進行比較:iab.net 和 user-agents.org 發布了這兩個似乎最廣泛用於此目的的列表
  3. 模式分析:我們當然沒有為這些指標預設門檻值,但仍然覺得它們很有用。我們將 (i) 頁面瀏覽量視為時間的函式(即,在每個頁面上以 200 毫秒的時間點擊大量連結是有證據的);(ii)“使用者”遍歷站點的路徑,它是系統的和完整的還是幾乎如此(如遵循回溯算法);(iii) 定時訪問(例如,每天凌晨 3 點)。

再一次,我相當確定我們正在獲得唾手可得的果實,但我有興趣從社區獲得意見。

這些來自 Nihuo網站頁面 的商業Web 日誌分析器上標記為Web 日誌分析的時事通訊文章可能是有用的閱讀。

引用自:https://serverfault.com/questions/94369