Website

Google網路爬蟲找不到我的 wordpress 文章

  • June 3, 2009

我在自己的伺服器上有一個 wordpress 部落格,它使用了包含中文字元的永久連結,例如http://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA %8C/

幾個月前,我把所有的url都改成了http://techblog.zellux.czm.cn/2009/05/page-coloring/這樣的英文描述,並安裝了一個外掛來自動生成sitemap.xml並送出給Google站長工具.

現在幾個月後我再次查看Google Webmaster Tools,在Diagnostics->Web Crawl中它說找不到41個url,所有這些url都像以前一樣包含中文字元的unicode,並且在Linked From欄中它們都不可用. 至於 Sitemaps->Sitemap details,它表示 115 個 URL 中只有 15 個被編入索引。

所以我的問題是如何讓 Google 停止嘗試抓取已棄用的網址,而只抓取 sitemap.xml 中指定的網址?

您可以使用 robots.txt 文件將指定頁面排除在抓取之外。它看起來像這樣:

User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3

在任何文本編輯器中創建它並上傳到您的根目錄(或編輯現有的 robots.txt 文件,如果有的話)。

站長工具也有生成robots.txt文件的工具(工具>生成robots.txt)

引用自:https://serverfault.com/questions/18812