當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

了解robots文件,主動(dòng)告訴搜索引擎該抓取什么內(nèi)容

 2015-08-06 15:35  來(lái)源: 用戶投稿   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

導(dǎo)讀:首先我們要了解什么是robots文件,比如,在安徽人才庫(kù)的首頁(yè)網(wǎng)址后面加入“/robots.txt”,即可打開該網(wǎng)站的robots文件,如圖所示,文件里顯示的內(nèi)容是要告訴搜索引擎哪些網(wǎng)頁(yè)希望被抓取,哪些不希望被抓取。因?yàn)榫W(wǎng)站中有一些無(wú)關(guān)緊要的網(wǎng)頁(yè),如“給我留言”或“聯(lián)系方式”等網(wǎng)頁(yè),他們并不參與SEO排名,只是為了給用戶看,此時(shí)可以利用robots文件把他們屏蔽,即告訴搜索引擎不要抓取該頁(yè)面。

蜘蛛抓取網(wǎng)頁(yè)的精力是有限的,即它每次來(lái)抓取網(wǎng)站,不會(huì)把網(wǎng)站所有文章、所有頁(yè)面一次性全部抓取,尤其是當(dāng)網(wǎng)站的內(nèi)容越來(lái)越多時(shí),它每次只能抓取一部分。那么怎樣讓他在有限的時(shí)間和精力下每次抓取更多希望被抓去的內(nèi)容,從而提高效率呢?

這個(gè)時(shí)候我們就應(yīng)該利用robots文件。小型網(wǎng)站沒(méi)有該文件無(wú)所謂,但對(duì)于中大型網(wǎng)站來(lái)說(shuō),robots文件尤為重要,因?yàn)檫@些網(wǎng)站數(shù)據(jù)庫(kù)非常龐大,蜘蛛來(lái)時(shí),要像對(duì)待好朋友一樣給它看最重要的東西,因?yàn)檫@個(gè)朋友精力有限,每次來(lái)都不能把所有的東西看一遍,所以就需要robots文件屏蔽一些無(wú)關(guān)緊要的東西。由于種種原因,某些文件不想被搜索引擎抓取,如處于隱私保護(hù)的內(nèi)容,也可以用robots文件把搜索引擎屏蔽。

當(dāng)然,有些人會(huì)問(wèn),如果robots文件沒(méi)用好或出錯(cuò)了,會(huì)影響整個(gè)網(wǎng)站的收錄,那為什么還有這個(gè)文件呢?這句話中的“出錯(cuò)了”是指將不該屏蔽的網(wǎng)址屏蔽了,導(dǎo)致蜘蛛不能抓取這些頁(yè)面,這樣搜索引擎就不會(huì)收錄他們,那何談排名呢?所以robots問(wèn)價(jià)的格式一定要正確。下面我們一起來(lái)了解robots文件的用法:

1.“user-agent:*disallow:/”表示“禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分”,這相當(dāng)于該網(wǎng)站在搜索引擎里沒(méi)有記錄,也就談不上排名。

2.“user-agent:*disallow:”表示“允許所有的robots訪問(wèn)”,即允許蜘蛛任意抓取并收錄該網(wǎng)站。這里需要注意,前兩條語(yǔ)法之間只相差一個(gè)“/”。

3.“user-agent:badbot disallow:/”表示“禁止某個(gè)搜索引擎的訪問(wèn)”。

4.“user-agent:baiduspider disallow:user-agent:*disallow:/”表示“允許某個(gè)搜索引擎的訪問(wèn)”。這里面的“baiduspider”是百度蜘蛛的名稱,這條語(yǔ)法即是允許百度抓取該網(wǎng)站,而不允許其他搜索引擎抓取。

說(shuō)了這么多,我們來(lái)舉個(gè)例子,某個(gè)網(wǎng)站以前是做人才招聘的,現(xiàn)在要做汽車行業(yè)的,所以網(wǎng)站的內(nèi)容要全部更換。刪除有關(guān)職場(chǎng)資訊的文章,這樣就會(huì)出現(xiàn)大量404頁(yè)面、很多死鏈接,而這些鏈接以前已經(jīng)被百度收錄,但網(wǎng)站更換后蜘蛛再過(guò)來(lái)發(fā)現(xiàn)這些頁(yè)面都不存在了,這就會(huì)留下很不好的印象。此時(shí)可以利用robots文件把死鏈接全部屏蔽,不讓百度訪問(wèn)這些已不存在的頁(yè)面即可。

最后我們來(lái)看看使用robots文件應(yīng)該注意什么?首先,在不確定文件格式怎么寫之前,可以先新建一個(gè)文本文檔,注意robots文件名必須是robots.txt,其后綴是txt并且是小寫的,不可以隨便更改,否則搜索引擎識(shí)別不了。然后打開該文件,可以直接復(fù)制粘貼別人的格式,

Robots文件格式是一條命令一行,下一條命令必須換行。還有,“disallow: ”后面必須有一個(gè)空格,這是規(guī)范寫法。

文章有萬(wàn)馬奔騰原創(chuàng),轉(zhuǎn)載請(qǐng)注明。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦