由于雅虎搜索對于網(wǎng)絡(luò)抓取采取大量系統(tǒng),因此,我們的網(wǎng)絡(luò)服務(wù)器會從不同的YST(雅虎搜索技術(shù))抓取程序的客戶端IP地址登錄請求。不同的抓取程序系統(tǒng)彼此配合,來限制任何來自單一網(wǎng)絡(luò)服務(wù)器的活動。所謂單一網(wǎng)絡(luò)服務(wù)器,是由IP地址判斷的。因此,如果我們的服務(wù)器主機擁有多個IP,它的活動則會處于更高的級別。
YST有一個特定的擴展名,在我們的服務(wù)器根目錄下的robots.txt里可以應(yīng)用,通過它可以對雅虎搜索的抓取程序設(shè)定一個較低的抓取請求頻率??梢栽趓obots.txt里加入Crawl-delay:xx的指示,其中,“xx”是指在crawler程序兩次進入站點時,以秒為單位的最低延時。如果crawler頻率對我們的服務(wù)器是一個負(fù)擔(dān),我們可以將這個延時設(shè)定為任何恰當(dāng)?shù)臄?shù)字,例如50或200。
例如:我們想要設(shè)定一個5秒的延時,可以在robots.txt里加入以下語句 :
User-agent: Slurp
Crawl-delay: 5
也可以設(shè)定更長時間的延時,在此網(wǎng)智成不再贅述。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!