報道公司事件 · 傳播行業動態
當搜索引擎蜘蛛抓取網站的時候,每一次都會有一個返回碼,表示本條內容抓取的狀態,我們可以通過網站日志中查看這些返回碼信息,來提升青島網站建設的優化效果。
你把IIS日志從空間下到自己電腦,然后用文本工具打開;
2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0
分析下 200 0 0組成部分 sc-status(協議狀態) sc-substatus(協議子狀態) sc-win32-status(Win32狀態碼)
sc-status(協議狀態): 200 連接成功
sc-substatus(協議子狀態) :0 成功
sc-win32-status(Win32狀態碼):0 代表抓取成功并帶回數據庫 ; 64 指定的網絡名不再可用
1: 在這個訪問記錄里面121.187.5.143是你服務器的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 為蜘蛛訪問你的頁面 80是端口 GET是打開方式 W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經訪問了你的category-8-b0-min1100-max2200.html 這個頁面,那么最重要的是最后面的這個參數200 0 0。
2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這個時候你就放心了,這個頁面已經被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。
3:200 0 64 網絡上流傳著這么三種解釋
第164為K站的前兆。
第264的出現只是64位操作系統。
第三:網絡不可達,由于某種原因無法完全打開頁面,或者網絡不穩定這些原因,導致蜘蛛無法帶回頁面或者說不抓取該頁面,
所以200 0 64的解釋也應該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這種原因多為空間不穩定、服務器不穩定。
或者說是蜘蛛訪問了但快照不更新
4:304 0 0這個返回碼代表蜘蛛訪問的頁面沒有更新,和他之前來的時候是一樣的,所以看到這個不要擔心,蜘蛛來過,只不過你沒有更新,所以他也不愿意帶走這個頁面。
5:404 0 0這個是代表404頁面,但是有個很嚴重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了
,要是這樣的話基本上你要倒霉了,要你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數的重復頁面,最終導致K站或者降權,
正確的返回碼是404 0 64 這就代表蜘蛛沒有抓取你這個頁面。 (好像是內容有死鏈的意思)
6:500錯誤500錯誤是服務器內部錯誤,是由程序的錯誤造成的,我不懂程序,但是500錯誤是會給你減分的,這點基本的邏輯都可以想的到,要發現500錯誤,馬上查看是哪個頁面的,然后去修正以下錯誤吧!
7:302要在日志中發現302的返回碼也是需要注意的,302為臨時重定向,要你是長期的將這個頁面重定向到另一個頁面,麻煩你使用301永久重定向,要是302的話bd蜘蛛下次來還會訪問這個頁面,這樣又會造成復制大量頁面的問題,結果肯定是K,所以,抽空檢查以下。
每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為BaiDuSpider,Yahoo網絡蜘蛛的標識為Inktomi Slurp。
返回碼大全:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。
如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。
根據不同的IP我們可以分析網站是個怎樣的狀態.下面就按照我IIS日記上的百度蜘蛛IP為例:
123.125.68.*這個蜘蛛經常來,別的來的少,表示網站可能要進入沙盒了,或被者降權。
220.181.68.*每天這個IP 段只增不減很有可能進沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。
121.14.89.*這個ip段作為度過新站考察期。
203.208.60.*這個ip段出現在新站及站點有不正常現象后。
210.72.225.*這個ip段不間斷巡邏各站。
125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。
220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網站會天天隔夜快照,絕對錯不了的,我保證。
220.181.108.92 同上98%抓取首頁,可能還會抓取其他 (不是指內頁)220.181段屬于權重IP段此段爬過的文章或首頁基本24小時放出來。
123.125.71.106 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁和內頁或其他,屬于權重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.75重點抓取更新文章的內頁達到90%,8%抓取首頁,2%其他。權重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.86專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創或采集文章。
123.125.71.97 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創或采集文章。
220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創或采集文章。
220.181.108.83專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
注:以上IP尾數還有很多,但段位一樣的123.125.71.*段IP 代表抓取內頁收錄的權重比較低.可能由于你采集文章或拼文章暫時被收錄但不
放出來.(意思也就是說待定)。
220.181.108.*段IP主要是抓取首頁占80%,內頁占30%,這此爬過的文章或首頁,絕對24小時內放出來和隔夜快照的,這點我可以保證!
一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站沒更新,蜘蛛來過,如果是 200 0 64別擔心這不是K站,可能是網站是動態的,
所以返回就是這個代碼。