Indexing

我可以使用 Google Appliance/Mini 來抓取不屬於我的網站並將其編入索引嗎?

  • June 27, 2011

也許這是一個愚蠢的問題,但是……

我正在與這家公司合作,他們說他們需要獲得“許可”才能抓取其他人的網站。他們有一個 Google Search Appliance 和一些 Google Mini,並希望將它們指向其他站點以聚合內容。最終結果將類似於有針對性的搜尋引擎。(所有索引站點都與特定主題相關)

他們唯一要做的就是:

  1. 索引來自其他站點/域的內容
  2. 在他們自己的網站上提供搜尋索引內容的搜尋功能(如穀歌,顯示摘要而不是完整內容)
  3. 搜尋結果將提供返回原始內容的連結

他們的意圖本質上不是惡意的,而是提供一個站點/資源供人們參考他們給定的主題。

這個過程有什麼非法或可疑的嗎?

只要您的抓取尊重網站的 robots.txt 文件,就應該沒問題。

在 google 上搜尋 robots.txt 會給你很多資訊。

簡而言之,它是一個文件,用於指定爬蟲/機器人如何訪問站點、允許和禁止的內容、訪問速率、一天中的時間等。

引用自:https://serverfault.com/questions/163535