石榴算法—低質(zhì)量頁面終結(jié)者:2013年5月17日下午,百度網(wǎng)頁搜索反作弊團(tuán)隊在百度站長平臺發(fā)布公告稱:將于一星期后正式推出新的算法“石榴算法”。新算法前期將重點整頓含有大量妨礙用戶正常瀏覽的惡劣廣告的頁面
那么,“石榴算法”中,百度究竟是如何判斷網(wǎng)頁質(zhì)量呢?網(wǎng)上較多文章對此發(fā)表觀點,歸納有以下幾點:
感興趣的受眾群大小
該頁面的稀缺程度(可替代性)
該頁面是否有彈窗
該頁面廣告的多少
由上可見,目前我們的研究重點大部分集中在對網(wǎng)頁的頁面價值的判斷上,缺乏對搜索用戶交互行為的研究與分析。
今天,我們嘗試從搜索用戶交互行為的角度出發(fā),猜測百度如何判斷文章質(zhì)量。
對于安裝了百度統(tǒng)計的用戶,百度可以根據(jù)跳出率、退出率、頁面停留時間幾個關(guān)鍵指標(biāo),很容易對網(wǎng)頁質(zhì)量加以判斷。
然而,對大部分沒有安裝百度統(tǒng)計的搜索用戶,百度是不可能跟蹤這些關(guān)鍵指標(biāo)的,百度通過迂回戰(zhàn)術(shù)從側(cè)面分析關(guān)鍵詞的匹配度,匹配度越高,表明文章質(zhì)量度越高。
百度如何通過搜索行為判斷文章質(zhì)量?我以為,主要根據(jù)以下2點:
一、通過對搜索結(jié)果的二次點擊率(或多次)進(jìn)行判斷
二次點擊率是指:當(dāng)用戶點擊某結(jié)果后,(因不滿意結(jié)果)產(chǎn)生第二次點擊(或多次)的比率
如果某頁面二次點擊率非常低,百度搜索引擎有理由相信,此網(wǎng)頁的關(guān)鍵詞匹配度非常高,同時文章的質(zhì)量也有保證。因為,眾多用戶的行為已經(jīng)為網(wǎng)頁投了關(guān)鍵的一票。
二次點擊率是相對上一條點擊而言。百度搜索默認(rèn)顯示10條搜索結(jié)果,我們假設(shè)一個這樣的情景:大量用戶點擊到第6條結(jié)果,就不再點擊其他結(jié)果,從常理來說,第6條結(jié)果的網(wǎng)頁,是最匹配的,那么質(zhì)量度自然較高。如果這種數(shù)據(jù)表現(xiàn)達(dá)到一定程度,百度很可能會把它的排序提高到前面幾位(提高排序權(quán)重)。
二、通過兩次點擊之前花費(fèi)的間隔時間進(jìn)行判斷
假設(shè)百度搜索某個關(guān)鍵詞,并按分別順序點擊了A/B/C 3個結(jié)果。如下圖:
根據(jù)普通用戶習(xí)慣,他會先打開并查看A網(wǎng)頁,可能結(jié)果不滿意或信息量不足夠,他又回到百度搜索界面,點擊了B網(wǎng)頁,閱讀完B網(wǎng)頁后,他又打開C網(wǎng)頁。
我們可以看到,A->B 時間間隔, B->C 時間間隔 是百度可以獲取的信息。 通過海量用戶的間隔時間的橫向比較分析,百度足夠建立這樣一個關(guān)鍵指標(biāo)。
假設(shè)大量數(shù)據(jù)顯示,A->B 時間間隔為30秒,B->C 時間間隔為 50秒,那么搜索引擎認(rèn)為,B的質(zhì)量高于A。 這就是間隔時間判斷的一個重要邏輯。
以上是我們對“百度如何判斷網(wǎng)頁質(zhì)量”猜測的一些邏輯與思路,實際上百度搜索的算法模型肯定更復(fù)雜龐大。尤其現(xiàn)在百度產(chǎn)品已經(jīng)涉及方方面面,百度統(tǒng)計、百度分享還有最近的百度瀏覽器,相信百度會把這幾方面的數(shù)據(jù)綜合利用起來,能夠更精準(zhǔn)的分析判斷網(wǎng)頁質(zhì)量。本文原創(chuàng):新華書店 轉(zhuǎn)載請注明出處!
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!