2018/11/3

已建立索引,但遭到 robots.txt 封鎖

已建立索引,但遭到 robots.txt 封鎖
在xuite的隨意窩蹲了十年有餘,使用上感覺愈來愈不習慣,兩個月前決定搬家到Google的Blogger (blogspot.com),因沒有適合的搬家工具只好一帖一帖的搬,花了近月的時間終於把新家安頓好,但Google搜索都搜不到新家的資料,秀出來的都是先前在xuite的連結。想說要等Google 的搜索 bot 自己找上門可能需要一年半載或更久,就開始了解如何讓 Google 的小機器人爬行上門的有關的資料。

經過幾天的摸索後知道現在的 Google Search Console 有所謂的新版和舊版,於舊版送出了sitemap.xml後過了近月後,如今在舊版的「Google 檢索」→「sitemap」裡的報表可秀出已送出343個網址,已建立索引319。但在舊版中到「Google 索引」→「索引狀態」下卻顯示「已建立的頁數」151,且這個數值有時會變,記得這週曾看過數字是342,但不知為何又降為151?更奇怪的是搜索一些文章的標題,除了搜到先前在xuite裡的文章之外,在新的Blogger中的文章一直都搜不到,用site:https://laoweizz.blogspot.com 去查,查到的幾乎都是「老尉子的部落格: 幾月幾年」這樣的連結,而真正文章的連結卻沒幾篇。

進去新版的「索引」→「涵蓋範圍」看看,所見的如下圖,顯示出有一個錯誤。
涵蓋範圍

真搞不懂新舊版有何差別,但看到有效但出現警告有10個網頁,一個問題,進一步了解後知這問題是「已建立索引,但遭到 robots.txt 封鎖」。而被封鎖的網頁是
https://laoweizz.blogspot.com/search/label/*****,其中****是我部落格中使用的標籤名稱。研究一下robots.txt 中的語法,也查看了使用中Google 預設使用的 robots.txt 檔,內容如下
 
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: https://laoweizz.blogspot.com/sitemap.xml

在其中就是 Disallow: /search  這行把上述有標籤名稱的網頁封鎖,但這行是Blogger自己產生的,網上找到的資料是說要把/search 這個目錄排除不讓bot 爬行,若沒排除這個目錄可能會被懲罰,但那些被封鎖的網頁也是blogger自己產生的,我們只是建立標籤,而存在/search/label/底下是Blogger 決定的,我們也沒辦法改變。就這樣「自己建立網頁,自己建立封鎖規則來封鎖並產生錯誤,再寄錯誤訊息給Blogger的使用者」,這一串的事情好像Google在自己打嘴巴來嚇人!我試著在robots.txt 檔中加了一行,如下,
 
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Allow: /search/label
Disallow: /search
Allow: /

Sitemap: https://laoweizz.blogspot.com/sitemap.xml

新加一行是要讓bot可爬行到  /search/label/底下, 但不進入/search/底下,用工具測試好像可以。之後到舊版要求驗證,想看看是否會再度被封鎖,送出後現在「驗證已開始」,可能要等一個禮拜後才能知道這樣修改是否有效!

======
經過一個禮拜的驗證結果出爐,如下圖

剩下一個在/search

但是如前述,
User-agent: *
Disallow: /search
是系統預設的 所以這個失敗「正常」不知Google 為何還要說失敗?算了,!真搞不 懂Google在做啥?

2 則留言: