久久夜色精品国产网,美丽人妻被按摩中出中文字幕

　阿里云優(yōu)惠券先領(lǐng)券再下單

本文大綱：

1、爬蟲是什么？反爬蟲又是什么？

2、爬蟲有哪些分類？

3、爬中流程與搜索引擎工作流程

4、http/https協(xié)議與狀態(tài)碼

5、robots協(xié)議

爬蟲是什么？反爬蟲又是什么？

這里的爬蟲不是我們生活中的爬蟲，如蜘蛛。這里的爬蟲更多指的是網(wǎng)絡(luò)爬蟲，即我們叫它網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機(jī)器人。當(dāng)然，在SEO里，叫網(wǎng)頁蜘蛛更多。

網(wǎng)絡(luò)爬蟲，是一種按照一定規(guī)則，自動地抓取互聯(lián)網(wǎng)上的信息的一種程序。他有一個(gè)英文名叫spider，比如百度網(wǎng)頁蜘蛛就叫baiduspider，那搜狗的就叫Sogou spider。

這也是我們SEO人員做網(wǎng)站優(yōu)化排名會聽說的一個(gè)詞。網(wǎng)站為啥沒收錄呢？原來蜘蛛沒來抓?。∪绾慰催@個(gè)爬蟲蜘蛛朋友來沒來呢，讓技術(shù)把網(wǎng)站日志下載給我們，我們就可以判斷了，你說算不算好朋友？

百度爬蟲是什么？Baiduspider是啥？

Baiduspider是百度搜索引擎的一個(gè)自動程序，它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁，建立索引數(shù)據(jù)庫，使用戶能在百度搜索引擎中搜索到網(wǎng)站上的網(wǎng)頁。百度還有哪些蜘蛛呢？如下圖。最多是圈中這個(gè)，記得哈~

圖片

反爬蟲是什么？

我們以門戶網(wǎng)站舉例，企業(yè)網(wǎng)站也同理哈。門戶網(wǎng)站通過相應(yīng)的策略和技術(shù)手段，防止爬蟲程序進(jìn)行網(wǎng)站數(shù)據(jù)的爬取，這就叫反爬蟲。

當(dāng)然，其實(shí)還有反反爬蟲，即爬蟲程序通過相應(yīng)的策略和技術(shù)手段，破解了門戶網(wǎng)站的反爬蟲手段，從而爬取到相應(yīng)的數(shù)據(jù)，這就叫反反爬蟲。

再白話舉例：你要來采集我的內(nèi)容（爬蟲），我不給你采并且我做防采集（反爬蟲）。你呢，又搞了更高技術(shù)把我防采集攻破了采集（反反爬蟲），這樣理解了吧？

爬蟲有哪些分類？

爬蟲總共就分兩類：通用爬蟲與聚焦爬蟲。

通用爬蟲：簡單說就是盡可能的把網(wǎng)上的所有的網(wǎng)頁下載下來，放到服務(wù)器里再對這些網(wǎng)頁做相關(guān)處理，最后給用戶搜索用，通常指的搜索引擎爬蟲。比如：谷歌爬蟲、百度爬蟲、搜狗爬蟲、360爬蟲等。

聚焦爬蟲：它是根據(jù)指定的需求抓取網(wǎng)絡(luò)上指定網(wǎng)站的數(shù)據(jù)。比如：獲取知乎問答上的某一問題的瀏覽量和回答人數(shù)，而不是獲取整個(gè)頁面中所有數(shù)據(jù)。它也可以理解叫特定爬蟲。

上面提到的反爬蟲與反反爬蟲，基本上都是在反這種聚焦爬蟲哈，你也可以理解為爬蟲攻防戰(zhàn)哈哈哈。

爬中流程與搜索引擎工作流程

爬蟲一般工作流程：確定某個(gè)URL——發(fā)送請求——響應(yīng)內(nèi)容——提取數(shù)據(jù)——保存數(shù)據(jù)。

搜索引擎蜘蛛工作流程：爬取網(wǎng)頁——存儲數(shù)據(jù)——數(shù)據(jù)預(yù)處理——提供用戶搜索網(wǎng)頁排名。

是不是感覺難理解？發(fā)送請求是什么，響應(yīng)內(nèi)容又是什么？這個(gè)往下看HTTP協(xié)議與狀態(tài)看完你就懂了。

關(guān)于搜索引擎數(shù)據(jù)預(yù)處理在處理什么，怎么理解？看公眾號白楊SEO兩年前寫過這篇《白楊SEO：大白話告訴你理解搜索引擎工作原理的意義和運(yùn)用》，看完你就懂了。

http/https協(xié)議與狀態(tài)碼

HTTP協(xié)議是指Hyper Text Transfer Protocol（超文本傳輸協(xié)議）的縮寫,是用于從萬維網(wǎng) WWW（World Wide Web縮寫）服務(wù)器傳輸超文本到本地瀏覽器的傳送協(xié)議。默認(rèn)端口號：80。

而HTTPS (Secure Hypertext Transfer Protocol)安全超文本傳輸協(xié)議指的是HTTPS是在HTTP上建立SSL加密層，并對傳輸數(shù)據(jù)進(jìn)行加密，是HTTP協(xié)議的安全版。默認(rèn)端口號：443。

你是不是理解不了這個(gè)HTTP到底什么東東？簡單白話來說這個(gè)就是用來傳輸和接收頁面的，保證你的電腦能快速傳輸文本文檔并且讓你看到哈。

至于HTTP的請求頭，響應(yīng)頭，都是各種代碼，白楊SEO就不在這里寫了，如果你要真的想了解，自己去搜索，這里只講一下我們SEO中會看到的HTTP請求響應(yīng)狀態(tài)碼，一般狀態(tài)碼如下：

圖片

上面只要是2或者3開頭都是好的，比如查白楊SEO博客的：

圖片

輸入http://www.baiyangseo.com返回是301，而輸入https://www.baiyangseo.com 返回的是200正常的你知道為什么嗎？

其實(shí)，這在SEO里來說，是因?yàn)閮蓚€(gè)不同URL內(nèi)容是一模一樣，為了讓搜索引擎避免認(rèn)為作弊，所以做了301永久重定向。簡單理解，你用不帶s的HTTP那個(gè)域名打開就是這個(gè)帶的了哈。

關(guān)于這個(gè)狀態(tài)碼，如果你想學(xué)習(xí)了解更深入一點(diǎn)，同樣可以白楊SEO公眾號上這篇：《白楊SEO：SEO入門學(xué)習(xí)之搜索引擎蜘蛛與網(wǎng)站HTTP狀態(tài)碼》

robots協(xié)議

最后，來到針對搜索引擎網(wǎng)頁蜘蛛robots協(xié)議了。這個(gè)如果你是學(xué)SEO的，肯定要學(xué)的。

robots協(xié)議是什么？簡單理解就是網(wǎng)站通過Robots協(xié)議告訴搜索引擎，網(wǎng)站上哪些頁面可以抓取，那些頁面不能抓?。〉?，它僅僅是互聯(lián)網(wǎng)中的一種約定而已。所以有些人說我明明禁止XXX蜘蛛還是被抓取了哈哈哈。

它長啥樣？到底有什么用？

圖片

長啥樣，如上圖，作用就是上面說的，在SEO里就是告訴蜘蛛來爬我這里，一般每個(gè)站都會做這個(gè)，因?yàn)橹┲胧紫纫廊∫粋€(gè)頁面這個(gè)地方是最先爬取的，也會反復(fù)爬取。

不要問我為啥要給蜘蛛爬取，你做一個(gè)網(wǎng)站目的是啥，不就是要讓蜘蛛爬取然后用戶搜索的時(shí)候看到你帶來流量嗎？當(dāng)然，你說我做網(wǎng)站只是用來存儲我自己看除外哈哈哈。

作者簡介：

白楊SEO，專注SEO研究十年，SEO、流量實(shí)戰(zhàn)派，對互聯(lián)網(wǎng)精準(zhǔn)流量有深入研究。個(gè)人微信：baiyang2047

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁 > 站長 > 搜索優(yōu)化 > 正文

爬蟲有哪些分類？白話說說SEO好朋友爬蟲

相關(guān)文章

淺談百度爬蟲的HTTP狀態(tài)碼返回機(jī)制

百度爬蟲是什么

百度蜘蛛爬蟲的工作原理

影響百度爬蟲對網(wǎng)站抓取量的因素

哪些網(wǎng)站優(yōu)化的細(xì)節(jié)會影響百度爬蟲的抓取

熱門排行

信息推薦

編輯推薦

站內(nèi)站外形成鏈輪的深度分析

如何研究行業(yè)用戶數(shù)據(jù)與熱點(diǎn)追蹤

錨文本對關(guān)鍵詞排名優(yōu)化用處大嗎如何操作

逆冬分享2個(gè)SEO實(shí)戰(zhàn)干貨收錄+快排深度剖析結(jié)果

利用全拼域名快速排名的技巧

熱門標(biāo)簽