Internet

Google 的網路蜘蛛多久抓取一次網路?

  • September 12, 2019

在對我的網站的 HTML 進行一些更改後僅僅幾個小時,我發現 Google 已經針對我的網站更新了搜尋結果。網際網路這麼大,Google爬蟲是怎麼做到的?它不會佔用太多頻寬嗎?

Google的蜘蛛不斷地爬網。他們有多台機器來爬取他們的海量索引並一直添加新頁面。

速度快的原因:

  • 他們有成噸的機器以驚人的速度爬行
  • 他們有大量可用頻寬
  • 他們已經擁有龐大的頁面索引可供搜尋,因此可以節省尋找新內容的時間。他們可以請求以前索引的連結並解析它們以獲取要抓取的新連結。
  • 他們多年來一直這樣做,並微調了他們的爬行算法。直到今天,他們仍在繼續努力,以使其變得更好。
  • 根據某些因素,某些網站被更頻繁地編入索引,PR(PageRank)是一個很大的因素。如果您的網站的 PR 很高,您會看到它更新得很快。這就是為什麼您會經常看到超級使用者問題在被詢問幾分鐘後出現在搜尋結果中。

編輯:

替代文字

…在許多其他因素中。

Google擁有豐富的空間和頻寬。你不用擔心他們!截至 2008 年 1 月,Google 每天(平均)排序 20PB。20PB(PB)是 20,000 TB,或 2000 萬千兆字節。現在這只是排序,它不是他們的全部數據,它只是其中的一小部分。

在進行如此大規模的實驗時出現了一個有趣的問題:您將 1PB 的排序數據放在哪裡?我們將它寫入 48,000 個硬碟驅動器(不過,我們並沒有使用這些磁碟的全部容量),每次執行排序時,至少有一個磁碟成功損壞(考慮到持續時間,這並不奇怪測試的數量、涉及的磁碟數量以及硬碟的預期壽命)。為了確保我們的分類 PB 安全,我們要求 Google 文件系統將每個文件的三個副本寫入三個不同的磁碟。

簡直不可思議。

引用自:https://serverfault.com/questions/98185