當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

關(guān)注百度蜘蛛IP 近距離了解站點(diǎn)收錄情況

 2013-12-07 09:40  來源: 用戶投稿   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

眾所周知,百度蜘蛛,是百度搜索引擎的一個(gè)自動(dòng)程序,它的作用是訪問收集整理互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻 等內(nèi)容,然后分門別類建立索引數(shù)據(jù)庫, 使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。分析和了解百度蜘蛛你可以很直觀的掌握自己站點(diǎn)收錄情況,當(dāng)你了解百度蜘蛛以及其對(duì)應(yīng)蜘 蛛IP的含義后,你再也不必要在不知情的情況因?yàn)檎军c(diǎn)遲遲不為百度收錄而煩惱,也不會(huì)因?yàn)榘俣榷虝旱目煺詹桓露艞壴疽活w堅(jiān)持建站的心,那么剩下的就 只有肯勤奮的付出,堅(jiān)持原創(chuàng),堅(jiān)持外鏈,站點(diǎn)可觀的收錄和理想的排名將成為水到渠成的事,這一切只因?yàn)槟闵羁塘私獍俣戎┲搿?/p>

那么我們通過什么方式去了解一個(gè)個(gè)搜索引擎的蜘蛛程序呢?

其實(shí)很簡(jiǎn)單,每一個(gè)蜘蛛程序就猶如一個(gè)用戶,他對(duì)任意站點(diǎn)的訪問,都尤其訪問的軌跡,linux主機(jī)下我們完全可以透過網(wǎng)站主機(jī)日志文件去觀察和分 析各大搜索引擎的蜘蛛來訪情況,并根據(jù)來訪Ip去分析和判斷當(dāng)前站點(diǎn)具體收錄情況,了解和分析站點(diǎn)目前所存在的問題,諸如:URL是否符合蛛蛛抓爬習(xí) 慣,robots.txt文件是否設(shè)置合理,網(wǎng)站結(jié)構(gòu)是否合理等。本文主要以百度蜘蛛作為分析和介紹對(duì)象,從而幫助站長能更好的針對(duì)自己的站點(diǎn)進(jìn)行SEO優(yōu)化和推廣。

首先,我們先來看看一下具體的日志截圖(該截圖來源于本博客網(wǎng)站)

 


百度蜘蛛IP分析

透過以上截圖可以得知百度蜘蛛來訪時(shí)以Baiduspider名稱顯現(xiàn),并且來訪IP存在多個(gè),那么多的百度蜘蛛IP到底分別是代表啥呢?

在百度站長平臺(tái)《百度spider介紹》一文中已有相應(yīng)的解釋、并且清楚的說明百度不同的產(chǎn)品使用不同的user-agent

 

本人在此也不具體分解,有了解必要的朋友可以去參看原文,原文地址:

今天想給大家介紹的主要是百度蜘蛛IP、從本博客的站點(diǎn)日志截圖可看出,Baiduspider是多個(gè)IP來訪的,那么具體分

為哪幾類蜘蛛、具體有代表啥意義呢?

一、代表性沙盒蜘蛛IP:

123.125.68.* 這個(gè)蜘蛛經(jīng)常來,別的來的少,表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權(quán)。

220.181.68.* 每天這個(gè)IP 段只增不減很有可能進(jìn)沙盒或K站。

二、代表性正常蜘蛛IP:

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西。

121.14.89.* 這個(gè)ip段作為度過新站考察期。

203.208.60.* 這個(gè)ip段出現(xiàn)在新站及站點(diǎn)有不正?,F(xiàn)象后。

210.72.225.* 這個(gè)ip段不間斷巡邏各站

125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合

檢測(cè)造成的。

220.181.108.95這個(gè)是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網(wǎng)站會(huì)天天隔夜快照,絕對(duì)

錯(cuò)不了的,我保證。

220.181.108.92 同上98%抓取首頁,可能還會(huì)抓取其他 (不是指內(nèi)頁)220.181段屬于權(quán)重IP段此段爬過的文章或首頁

基本24小時(shí)放出來。

123.125.71.106 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。

220.181.108.91屬于綜合的,主要抓取首頁和內(nèi)頁或其他,屬于權(quán)重IP 段,爬過的文章或首頁基本24小時(shí)放出來。

220.181.108.75重點(diǎn)抓取更新文章的內(nèi)頁達(dá)到90%,8%抓取首頁,2%其他。權(quán)重IP 段,爬過的文章或首頁基本24

小時(shí)放出來。

220.181.108.86專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

123.125.71.95 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。

123.125.71.97 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。

220.181.108.89專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.94專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.97專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.80專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

220.181.108.77 專用抓首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

123.125.71.117 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。

220.181.108.83專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

注:以上IP尾數(shù)還有很多,但段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁收錄的權(quán)重比較低.可能由于你采集文章或拼

文章暫時(shí)被收錄但不放出來.(意思也就是說待定)。

220.181.108.*段IP主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,絕對(duì)24小時(shí)內(nèi)放出來和隔夜快照

在了解蜘蛛IP對(duì)應(yīng)的作用和含義后,我們?nèi)绾闻袛喟俣鹊降子袩o收錄或抓取站點(diǎn)內(nèi)容呢?大家可以根據(jù)每一行日志后

抓取返回的狀態(tài)響應(yīng)碼去分析:

1、成功抓取 返回代碼是 200 0 0;

2、網(wǎng)站沒更新 返回代碼是304 0 0;

3、蜘蛛來過 返回的是200 0 64

本文由《點(diǎn)滴互動(dòng)》SEO優(yōu)化 欄目整理提供,轉(zhuǎn)載須注明出處,謝謝!

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 超干貨 百度蜘蛛ip段大全分析

    百度蜘蛛ip段大全分析,會(huì)看蜘蛛日志的人才來看這篇文章哦,不會(huì)看的人就自動(dòng)過濾這篇文章吧,對(duì)你沒卵用,完全是聽天書了。

    標(biāo)簽:
    百度蜘蛛ip
    百度蜘蛛
  • 從百度蜘蛛IP段爬行日志分析收錄情況是否可信

    筆者近日剛剛上線一個(gè)新站,于是開始關(guān)注一些有關(guān)SEO的信息,偶然間搜索到一篇文章,題為:“百度蜘蛛IP段詳解”,內(nèi)容為介紹通過分析網(wǎng)站日志中百度蜘蛛爬行的IP段來了解網(wǎng)站首頁或內(nèi)頁的收錄放出情況。看后,筆者便親自試驗(yàn)了一下,發(fā)現(xiàn)可能并不可信。

    標(biāo)簽:
    百度蜘蛛ip
  • 詳解123.125.71.*百度蜘蛛IP段

    今天在我的一個(gè)網(wǎng)站日志中看到了這么一個(gè)ip,當(dāng)時(shí)是比較緊張的,之前百度一位工程師說過這是屬于降權(quán)蜘蛛,后來我問了很多朋友也查了大量的資料,證實(shí)這不是百度降權(quán)蜘蛛,但仍然比較危險(xiǎn),這個(gè)百度蜘蛛為考察期的百度蜘蛛。

    標(biāo)簽:
    百度蜘蛛ip

熱門排行

信息推薦