Bandwidth
Google的網路爬蟲會下載二進製文件嗎?
我的 Google-fu 現在讓我失望了。
我試圖弄清楚Google的網路爬蟲在蜘蛛網站時是否下載非圖像二進製文件。我知道它會下載(和索引)圖像和 PDF,但是 .zip、.dmg 等呢?
我的客戶在他們的網站上提供了很多軟體包供下載,他們試圖弄清楚搜尋引擎是否佔據了涉及這些文件的大部分頻寬。
您的第一個問題的答案似乎是“也許”:
Google 可以索引哪些文件類型?
Google 可以索引大多數類型的頁面和文件的內容。查看最常見的文件類型。
但常見文件類型的連結都是文本。
即使您搜尋諸如 Windows Installers (.msi) 之類的二進製文件,您也可能會獲得指向包含該文件的頁面的連結或指向該文件的直接連結,但 Google幾乎可以肯定會根據連結周圍的內容來決定如何對其進行索引在頁面上,而不是通過下載和解密二進製文件的內容。
至於您的主要問題,Google 推薦的檢查機器人是否訪問您的網站的方法是使用反向 DNS 查找:
$ host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
請記住,Google 的使命是“組織世界資訊並使其普遍可訪問和有用”。這意味著他們不斷創新,試圖以可搜尋的方式索引非文本數據。擴展 ceejayoz 的想法,即僅僅因為他們昨天沒有這樣做並不意味著他們明天不會這樣做:Google將盡一切努力實現明天的目標!