Website

除了 DRKSpider 之外的任何好的網路爬蟲

  • June 20, 2015

我正在查看 DRKSpider 以查找我們生產伺服器中網站的問題,但它的導出功能似乎會生成不同的輸出(具有不同的內容)。

我的目標是找到一個好的工具來顯示可能是錯誤 404、500、403 等的每種狀態程式碼。

你們能否建議一些開源工具來抓取網站以列出與錯誤相關的所有伺服器程式碼?

我認為最難的部分是大多數開源工具不會使用 js 和 css 引擎實現完整的 DOM。因此,您可能會遇到即使使用 wget 也不會在您的站點上暴露損壞的 java 腳本問題的問題。如果你想弄清楚你的網站可能會為使用者產生什麼錯誤,你應該考慮實現一個支持 js/css/etc 的蜘蛛。就像是:

http://atomz.com/(最多免費 10,000 頁)

您還可以使用提到的@mailq 之類的Google網站管理員工具,以下是有關其抓取錯誤部分的更多詳細資訊:

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=35120&ctx=cb&src=cb&cbid=g2fqlm56h5t&cbrank=0

最後,如果您還沒有這樣做,那麼您應該查看日誌以查找這些錯誤並跟踪引薦來源網址資訊,以便您隨後也可以調查它們。

引用自:https://serverfault.com/questions/301265