武漢seo今天想聊聊搜索引擎的蜘蛛的工作方式。先說(shuō)說(shuō)搜索引擎的原理吧。搜索引擎是把互聯(lián)網(wǎng)上的網(wǎng)頁(yè)內(nèi)容存在自己的服務(wù)器上,當(dāng)用戶搜索某個(gè)詞的時(shí)候,搜索引擎就會(huì)在自己的服務(wù)器上找相關(guān)的內(nèi)容,這樣就是說(shuō),只有保存在搜索引擎服務(wù)器上的網(wǎng)頁(yè)才會(huì)被搜索到。哪些網(wǎng)頁(yè)才能被保存到搜索引擎的服務(wù)器上呢?只有搜索引擎的網(wǎng)頁(yè)抓取程序抓到的網(wǎng)頁(yè)才會(huì)保存到搜索引擎的服務(wù)器上,這個(gè)網(wǎng)頁(yè)抓取程序就是搜索引擎的蜘蛛.整個(gè)過(guò)程分為爬行和抓取。
一、 蜘蛛
搜索引擎用來(lái)爬行和訪問(wèn)網(wǎng)站頁(yè)面的程序被稱為蜘蛛,也可稱之為機(jī)器人。蜘蛛訪問(wèn)瀏覽器,就和我們平時(shí)上網(wǎng)一個(gè)樣子,蜘蛛同樣會(huì)申請(qǐng)?jiān)L問(wèn),得到允許后才可以瀏覽,可是有一點(diǎn),搜索引擎為了提高質(zhì)量和速度,它會(huì)放很多蜘蛛一起去爬行和抓取。
蜘蛛訪問(wèn)任何一個(gè)網(wǎng)站時(shí),都會(huì)先去訪問(wèn)網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。
和瀏覽器一樣,搜索引擎蜘蛛也有表明自己身份的代理名稱,站長(zhǎng)可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識(shí)搜索引擎蜘蛛。
二、 跟蹤鏈接
為了抓取網(wǎng)上盡量多的頁(yè)面,搜索引擎蜘蛛會(huì)跟蹤頁(yè)面上的鏈接,從一個(gè)頁(yè)面爬到下一個(gè)頁(yè)面,就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣。
整個(gè)互聯(lián)網(wǎng)是有相互鏈接的網(wǎng)站及頁(yè)面組成的。當(dāng)然,由于網(wǎng)站及頁(yè)面鏈接結(jié)構(gòu)異常復(fù)雜,蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁(yè)面。
最簡(jiǎn)單的爬行的策略有:深度優(yōu)先和廣度優(yōu)先。
1、 深度鏈接
深度優(yōu)先指當(dāng)蜘蛛發(fā)現(xiàn)一個(gè)鏈接時(shí),它就會(huì)順著這個(gè)鏈接指出的路一直向前爬行,直到前面再也沒(méi)其他鏈接,這時(shí)就會(huì)返回第一個(gè)頁(yè)面,然后會(huì)繼續(xù)鏈接再一直往前爬行。
2、 廣度鏈接
從seo角度講鏈接廣度優(yōu)先的意思是講的蜘蛛在一個(gè)頁(yè)面發(fā)現(xiàn)多個(gè)鏈接的時(shí)候,不是跟著一個(gè)鏈接一直向前,而是把頁(yè)面上所有第一層鏈接都爬一遍,然后再沿著第二層頁(yè)面上發(fā)現(xiàn)的鏈接爬向第三層頁(yè)面。
從理論上說(shuō),無(wú)論是深度優(yōu)先還是廣度優(yōu)先,只要給蜘蛛足夠的時(shí)間,都能爬完整個(gè)互聯(lián)網(wǎng)。在實(shí)際工作中,沒(méi)有什么東西是無(wú)限的,蜘蛛的帶寬資源和蜘蛛的時(shí)間也是一樣都是有限的,也不可能爬完所有頁(yè)面。實(shí)際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。
3.吸引蜘蛛
蜘蛛式不可能抓取所有的頁(yè)面的,它只會(huì)抓取重要的頁(yè)面,那么哪些頁(yè)面被認(rèn)為比較重要呢?有以下幾點(diǎn):
(1) 網(wǎng)站和頁(yè)面權(quán)重
(2) 頁(yè)面更新度
(3) 導(dǎo)入鏈接
(4) 與首頁(yè)點(diǎn)擊距離
4.地址庫(kù)
搜索引擎會(huì)建立一個(gè)地址庫(kù),這么做可以很好的避免出現(xiàn)過(guò)多抓取或者反復(fù)抓取的現(xiàn)象,記錄已經(jīng)被發(fā)現(xiàn)還沒(méi)有抓取的頁(yè)面,以及已經(jīng)被抓取的頁(yè)面。
地址庫(kù)中的URL有以下幾個(gè)來(lái)源:
(1) 人工錄入的種子網(wǎng)站。
(2) 蜘蛛抓取頁(yè)面后,從HTML中解析出新的鏈接URL,與地址庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)比,如果是地址庫(kù)中沒(méi)有的網(wǎng)址,就存入待訪問(wèn)地址庫(kù)。
(3) 搜索引擎自帶的一種表格提供站長(zhǎng),方便站長(zhǎng)提交網(wǎng)址
講到這里,關(guān)于搜索引擎已經(jīng)差不多了,雖然對(duì)于真正的搜索引擎技術(shù)來(lái)說(shuō)只是一皮毛,不過(guò)對(duì)于SEO人員已經(jīng)夠用了。原文地址: 這是億盾武漢seo培訓(xùn)學(xué)員博客的第二篇文章,了解了這么多之后是不是更有利于我們對(duì)自己網(wǎng)站的優(yōu)化了捏!
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!