Content-Filter

是否有任何應用程序/防火牆來檢測內容抓取工具?

  • December 31, 2012

我們注意到大量網路流量來自內容抓取工具(由其抓取模式確定)。他們對我們來說是無用的訪問者,但會消耗我們的大量資源(頻寬、cpu)。是否有任何應用程序/防火牆來檢測內容抓取工具並阻止它們?

排除搜尋引擎爬蟲,它們也不是沒用的。

注意:我更喜歡使用現有的解決方案。它認為這是一個普遍的問題,應該有一個現有的解決方案。

最好的方法是使用 netfilter/iptables 來阻止流量,因為這本質上比通過 apache2 / php 來阻止流量更高。這裡的問題是您需要知道內容抓取工具的 ip / 主機名。

一個可能的擴展可能是您嘗試根據它們的行為(-> 統計方法!-例如每分鐘的請求數)檢測內容抓取工具,或者例如搜尋失去的使用者代理或其他普通使用者瀏覽器可能擁有的東西,然後拒絕它們的訪問。當然,您也可以通過 php(或您使用的任何環境)將 IP / 主機名添加到 iptables 以使其被阻止。但通常這需要 root 權限,給你的 apache2 授予 root 權限不是一個好主意。

引用自:https://serverfault.com/questions/461950