Indexing
我可以使用 Google Appliance/Mini 來抓取不屬於我的網站並將其編入索引嗎?
也許這是一個愚蠢的問題,但是……
我正在與這家公司合作,他們說他們需要獲得“許可”才能抓取其他人的網站。他們有一個 Google Search Appliance 和一些 Google Mini,並希望將它們指向其他站點以聚合內容。最終結果將類似於有針對性的搜尋引擎。(所有索引站點都與特定主題相關)
他們唯一要做的就是:
- 索引來自其他站點/域的內容
- 在他們自己的網站上提供搜尋索引內容的搜尋功能(如穀歌,顯示摘要而不是完整內容)
- 搜尋結果將提供返回原始內容的連結
他們的意圖本質上不是惡意的,而是提供一個站點/資源供人們參考他們給定的主題。
這個過程有什麼非法或可疑的嗎?
只要您的抓取尊重網站的 robots.txt 文件,就應該沒問題。
在 google 上搜尋 robots.txt 會給你很多資訊。
簡而言之,它是一個文件,用於指定爬蟲/機器人如何訪問站點、允許和禁止的內容、訪問速率、一天中的時間等。