Apache-2.2

在 Apache 上阻止爬蟲

  • January 28, 2020

我正在嘗試阻止 Apache 上的爬蟲

   <Directory /to/my/site/>
       Options Indexes FollowSymLinks
       AllowOverride All
       Order deny,allow
       deny from 18.*.*.*
       deny from 35.*.*.*
       deny from *.us-west-2.compute.amazonaws.com
       deny from *.*.compute.amazonaws.com
       Allow from all
   </Directory>

但是,這似乎並沒有阻止來自任何這些 IP 的流量。我錯過了什麼?

首先,您應該嘗試將robots.txt添加到您的網頁以阻止禮貌的爬蟲。

您的Deny語句不起作用,因為您使用了不受支持的萬用字元語法(參見Apache 的文件)。指令應該是:

Deny from 18 35
Deny from .compute.amazonaws.com

引用自:https://serverfault.com/questions/1000676