當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

鏈接分析算法之HillTop算法

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申請(qǐng)專(zhuān)利,但是有很多人以為Hilltop算法是由谷歌研究的。只不過(guò)是Krishna Baharat 后來(lái)加入了Google成為了一名核心工程師,然后授權(quán)給Google使用的。

在與PageRank算法相比之下,Google意識(shí)到這個(gè)算法的進(jìn)步會(huì)為他們的搜索排名帶來(lái)非常重要的功能。Google的HillTop算法現(xiàn)在已經(jīng)能更好的與舊的算法(PR算法)聯(lián)合起來(lái)工作。根據(jù)觀察HillTop算法比起它在2000年剛設(shè)計(jì)的時(shí)候已經(jīng)有了很大的進(jìn)步。顯然這也是2003年11月16日“佛羅里達(dá)”更新中影響的一個(gè)最主要的算法。

1. Hilltop算法基本思想

Hilltop融合了HITS和PageRank兩個(gè)算法的基本思想:

一方面,Hilltop是與用戶(hù)查詢(xún)請(qǐng)求相關(guān)的鏈接分析算法,吸收了HITS算法根據(jù)用戶(hù)查詢(xún)獲得高質(zhì)量相關(guān)網(wǎng)頁(yè)子集的思想,即主題相關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高.符合“子集傳播模型”,是該模型的一個(gè)具體實(shí)例;

另一方面,在權(quán)值傳播過(guò)程中,Hilltop也采納了PageRank的基本指導(dǎo)思想,即通過(guò)頁(yè)面入鏈的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果的排序權(quán)重。

2. Hilltop算法的一些基本定義

非從屬組織頁(yè)面:

“非從屬組織頁(yè)面”(Non-affiliated Pages)是Hilltop算法的一個(gè)很重要的定義。要了解什么是非從屬組織頁(yè)面,先要搞明白什么是“從屬組織網(wǎng)站”,所謂“從屬組織網(wǎng)站”,即不同的網(wǎng)站屬于同一機(jī)構(gòu)或者其擁有者有密切關(guān)聯(lián)。具體而言,滿(mǎn)足如下任意一條判斷規(guī)則的網(wǎng)站會(huì)被認(rèn)為是從屬網(wǎng)站:

條件1:主機(jī)IP地址的前三個(gè)子網(wǎng)段相同,比如:IP地址分別為159.226.138.127和159.226.138.234的兩個(gè)網(wǎng)站會(huì)被認(rèn)為是從屬網(wǎng)站。

條件2:如果網(wǎng)站域名中的主域名相同,比如:www.ibm.com和www.ibm.com.cn會(huì)被認(rèn)為是從屬組織網(wǎng)站。

“非從屬組織頁(yè)面”的含義是:如果兩個(gè)頁(yè)面不屬于從屬網(wǎng)站,則為非從屬組織頁(yè)面。圖6-22是相關(guān)示意圖,從圖中可以看出,頁(yè)面2和頁(yè)面3同屬于IBM的網(wǎng)頁(yè),所以是“從屬組織頁(yè)面”,而頁(yè)面1和頁(yè)面5、頁(yè)面3和頁(yè)面6都是“非從屬組織頁(yè)面”。由此也可看出,“非從屬組織頁(yè)面”代表的是頁(yè)面的一種關(guān)系,單個(gè)一個(gè)頁(yè)面是無(wú)所謂從屬或者非從屬組織頁(yè)面的。

圖6-22 “從屬組織頁(yè)面”與“非從屬組織頁(yè)面”

專(zhuān)家頁(yè)面:

“專(zhuān)家頁(yè)面”(Export Sources)是Hilltop算法的另外一個(gè)重要定義。所謂“專(zhuān)家頁(yè)面”,即與某個(gè)主題相關(guān)的高質(zhì)量頁(yè)面,同時(shí)需要滿(mǎn)足以下要求:這些頁(yè)面的鏈接所指向的頁(yè)面相互之間都是“非從屬組織頁(yè)面”,且這些被指向的頁(yè)面大多數(shù)是與“專(zhuān)家頁(yè)面”主題相近的。

目標(biāo)頁(yè)面集合:

Hilltop算法將互聯(lián)網(wǎng)頁(yè)面劃分為兩類(lèi)子集合,最重要的子集合是由專(zhuān)家頁(yè)面構(gòu)成的互聯(lián)網(wǎng)頁(yè)面子集,不在這個(gè)子集里的剩下的互聯(lián)網(wǎng)頁(yè)面作為另外一個(gè)集合,這個(gè)集合稱(chēng)作“目標(biāo)頁(yè)面集合”(Target Web Servers)。

3. Hilltop算法

圖6-23是Hilltop算法的整體流程示意。

1) 建立專(zhuān)家頁(yè)面索引:首先從海量的互聯(lián)網(wǎng)網(wǎng)頁(yè)中通過(guò)一定規(guī)則篩選出“專(zhuān)家頁(yè)面”子集合,并單獨(dú)為這個(gè)頁(yè)面集合建立索引。

2)用戶(hù)查詢(xún): Hilltop在接收到用戶(hù)發(fā)出的某個(gè)查詢(xún)請(qǐng)求時(shí):

首先) 根據(jù)用戶(hù)查詢(xún)的主題,從“專(zhuān)家頁(yè)面”子集合中找出部分相關(guān)性最強(qiáng)的“專(zhuān)家頁(yè)面”,并對(duì)每個(gè)專(zhuān)家頁(yè)面計(jì)算相關(guān)性得分,

然后)根據(jù)“目標(biāo)頁(yè)面”和這些“專(zhuān)家頁(yè)面”的鏈接關(guān)系來(lái)對(duì)目標(biāo)頁(yè)面進(jìn)行排序?;舅悸纷裱璓ageRank算法的鏈接數(shù)量假設(shè)和質(zhì)量原則,將專(zhuān)家頁(yè)面的得分通過(guò)鏈接關(guān)系傳遞給目標(biāo)頁(yè)面,并以此分?jǐn)?shù)作為目標(biāo)頁(yè)面與用戶(hù)查詢(xún)相關(guān)性的排序得分。

最后) 系統(tǒng)整合相關(guān)專(zhuān)家頁(yè)面和得分較高的目標(biāo)頁(yè)面作為搜索結(jié)果返回給用戶(hù)。

圖6-23 Hilltop算法流程

若在上述過(guò)程中,Hilltop無(wú)法得到一個(gè)足夠大的專(zhuān)家頁(yè)面集合,則返回搜索結(jié)果為空。由此可以看出,Hilltop算法更注重搜索結(jié)果的精度和準(zhǔn)確性,不太考慮搜索結(jié)果是否足夠多或者對(duì)大多數(shù)用戶(hù)查詢(xún)是否都有相應(yīng)的搜索結(jié)果,所以很多用戶(hù)發(fā)出的查詢(xún)的搜索結(jié)果為空。這意味著Hilltop可以與某個(gè)排序算法相結(jié)合,以提高排序準(zhǔn)確性,但并不適合作為一個(gè)獨(dú)立的網(wǎng)頁(yè)排序算法來(lái)使用。

4. Hilltop算法流程

從上述整體流程描述可看出,Hilltop算法主要包含兩個(gè)步驟:專(zhuān)家頁(yè)面搜索及目標(biāo)頁(yè)面排序。

步驟一:專(zhuān)家頁(yè)面搜索

Hilltop算法從1億4千萬(wàn)網(wǎng)頁(yè)中,通過(guò)計(jì)算篩選出250萬(wàn)規(guī)模的互聯(lián)網(wǎng)頁(yè)面作為“專(zhuān)家頁(yè)面”集合。“專(zhuān)家頁(yè)面”的選擇標(biāo)準(zhǔn)相對(duì)寬松,同時(shí)滿(mǎn)足以下兩個(gè)條件的頁(yè)面即可進(jìn)入“專(zhuān)家頁(yè)面”集合:

條件1:頁(yè)面至少包含k個(gè)出鏈,這里的數(shù)量k可人為指定;

條件2:k個(gè)出鏈指向的所有頁(yè)面相互之間的關(guān)系都符合“非從屬組織頁(yè)面”的要求;

當(dāng)然,在此基礎(chǔ)上,可以設(shè)定更嚴(yán)格的篩選條件,比如要求這些“專(zhuān)家頁(yè)面”所包含鏈接指向的頁(yè)面中,大部分所涉及的主題和專(zhuān)家頁(yè)面的主題必須是一致或近似的。

根據(jù)以上條件篩選出“專(zhuān)家頁(yè)面”后,即可對(duì)“專(zhuān)家頁(yè)面”單獨(dú)建索引,在此過(guò)程中,索引系統(tǒng)只對(duì)頁(yè)面中的“關(guān)鍵片段”(Key Phrase)進(jìn)行索引。所謂“關(guān)鍵片段”,在Hilltop算法里包含了網(wǎng)頁(yè)的三類(lèi)信息:網(wǎng)頁(yè)標(biāo)題、H1標(biāo)簽內(nèi)文字和URL錨文字。

網(wǎng)頁(yè)的“關(guān)鍵片段”可以支配(Qualify)某個(gè)區(qū)域內(nèi)包含的所有鏈接,“支配”關(guān)系代表了一種管轄范圍,不同的“關(guān)鍵片段”支配鏈接的區(qū)域范圍不同,具體而言:

頁(yè)面標(biāo)題可以支配頁(yè)面內(nèi)所有出現(xiàn)的鏈接,

H1標(biāo)簽可以支配包圍在

內(nèi)的所有鏈接,

URL錨文字只能支配本身唯一的鏈接。

圖6-24給出了“關(guān)鍵片段”對(duì)鏈接支配關(guān)系的示意圖,在以“奧巴馬訪問(wèn)中國(guó)”為標(biāo)題的網(wǎng)頁(yè)頁(yè)面中,標(biāo)題支配了所有這個(gè)頁(yè)面出現(xiàn)的鏈接,而H1標(biāo)簽的管轄范圍僅限于標(biāo)簽范圍內(nèi)出現(xiàn)的2個(gè)鏈接,對(duì)于錨文字“中國(guó)領(lǐng)導(dǎo)人”來(lái)說(shuō),其唯一能夠支配的就是本身的這個(gè)鏈接。之所以定義這種支配關(guān)系,對(duì)于第二階段將“專(zhuān)家頁(yè)面”的分值傳遞到“目標(biāo)頁(yè)面”時(shí)候會(huì)起作用。

圖6-24 “關(guān)鍵片段”鏈接支配關(guān)系

系統(tǒng)接收到用戶(hù)查詢(xún)Q,假設(shè)用戶(hù)查詢(xún)包含了多個(gè)單詞,Hilltop如何對(duì)“專(zhuān)家頁(yè)面”進(jìn)行打分呢?對(duì)“專(zhuān)家頁(yè)面”進(jìn)行打分主要參考以下三類(lèi)信息:

1)“關(guān)鍵片段”包含了多少查詢(xún)?cè)~,包含查詢(xún)?cè)~越多,則分值越高,如果不包含任何查詢(xún)?cè)~,則該“關(guān)鍵片段”不計(jì)分;

2)“關(guān)鍵片段”本身的類(lèi)型信息,網(wǎng)頁(yè)標(biāo)題權(quán)值最高,H1標(biāo)簽次之,再次是鏈接錨文字;

3)用戶(hù)查詢(xún)和“關(guān)鍵片段”的失配率,即“關(guān)鍵片段”中不屬于查詢(xún)?cè)~的單詞個(gè)數(shù)占“關(guān)鍵片段”總單詞個(gè)數(shù),這個(gè)值越小越好,越大則得分衰減越多;

Hilltop綜合考慮以上三類(lèi)因素,擬合出打分函數(shù)來(lái)對(duì)“專(zhuān)家頁(yè)面”是否與用戶(hù)查詢(xún)相關(guān)進(jìn)行打分,選出相關(guān)性分值足夠高的“專(zhuān)家頁(yè)面”,以進(jìn)行下一步驟操作,即對(duì)“目標(biāo)頁(yè)面”進(jìn)行相關(guān)性計(jì)算。

步驟二:目標(biāo)頁(yè)面排序

Hilltop算法包含一個(gè)基本假設(shè),即認(rèn)為一個(gè)“目標(biāo)頁(yè)面”如果是滿(mǎn)足用戶(hù)查詢(xún)的高質(zhì)量搜索結(jié)果,其充分必要條件是該“目標(biāo)頁(yè)面”有高質(zhì)量“專(zhuān)家頁(yè)面”鏈接指向。然而,這個(gè)假設(shè)并不總是成立,比如有的“專(zhuān)家頁(yè)面”的鏈接所指向的“目標(biāo)頁(yè)面”可能與用戶(hù)查詢(xún)并非密切相關(guān)。所以,Hilltop算法在這個(gè)階段需要對(duì)“專(zhuān)家頁(yè)面”的出鏈仔細(xì)進(jìn)行甄別,以保證選出那些和查詢(xún)密切相關(guān)的目標(biāo)頁(yè)面。

Hilltop在本階段是基于“專(zhuān)家頁(yè)面”和“目標(biāo)頁(yè)面”之間的鏈接關(guān)系來(lái)進(jìn)行的,在此基礎(chǔ)上,將“專(zhuān)家頁(yè)面”的得分傳遞給有鏈接關(guān)系的“目標(biāo)頁(yè)面”。傳遞分值之前,首先需要對(duì)鏈接關(guān)系進(jìn)行整理,能夠獲得“專(zhuān)家頁(yè)面”分值的“目標(biāo)頁(yè)面”需要滿(mǎn)足以下兩點(diǎn)要求:

條件1:至少需要兩個(gè)“專(zhuān)家頁(yè)面”有鏈接指向“目標(biāo)頁(yè)面”,而且這兩個(gè)專(zhuān)家頁(yè)面不能是“從屬組織頁(yè)面”,即不能來(lái)自同一網(wǎng)站或相關(guān)網(wǎng)站。如果是“從屬組織頁(yè)面”,則只能保留一個(gè)鏈接,拋棄權(quán)值低的那個(gè)鏈接;

條件2:“專(zhuān)家頁(yè)面”和所指向的“目標(biāo)頁(yè)面”也需要符合一定要求,即這兩個(gè)頁(yè)面也不能是“從屬組織頁(yè)面”;

在步驟一,給定用戶(hù)查詢(xún),Hilltop算法已經(jīng)獲得相關(guān)的“專(zhuān)家頁(yè)面”及其與查詢(xún)的相關(guān)度得分,在此基礎(chǔ)上,如何對(duì)“目標(biāo)頁(yè)面”的相關(guān)性打分?上面列出的條件1指出,能夠獲得傳遞分值的“目標(biāo)頁(yè)面”一定有多個(gè)“專(zhuān)家頁(yè)面”鏈接指向,所以“目標(biāo)頁(yè)面”所獲得的總傳播分值是每個(gè)有鏈接指向的“專(zhuān)家頁(yè)面”所傳遞分值之和。而計(jì)算其中某個(gè)“專(zhuān)家頁(yè)面”傳遞給“目標(biāo)頁(yè)面”權(quán)值的時(shí)候是這么計(jì)算的:

a. 找到“專(zhuān)家頁(yè)面” 中那些能夠支配目標(biāo)頁(yè)面的“關(guān)鍵片段”集合S;

b. 統(tǒng)計(jì)S中包含用戶(hù)查詢(xún)?cè)~的“關(guān)鍵片段”個(gè)數(shù)T,T越大傳遞的權(quán)值越大;

c.“專(zhuān)家頁(yè)面”傳遞給“目標(biāo)頁(yè)面”的分值為:E*T,E為專(zhuān)家頁(yè)面本身在第一階段計(jì)算得到的相關(guān)得分,T為b步驟計(jì)算的分值,

我們以圖6-25的具體例子來(lái)說(shuō)明。假設(shè)“專(zhuān)家頁(yè)面”集合內(nèi)存在一個(gè)網(wǎng)頁(yè)P(yáng),其標(biāo)題為:“奧巴馬訪問(wèn)中國(guó)”,網(wǎng)頁(yè)內(nèi)容由一段

標(biāo)簽文字和另外一個(gè)單獨(dú)的鏈接錨文字組成。該頁(yè)面包含三個(gè)出鏈,其中兩個(gè)指向“目標(biāo)頁(yè)面集合”中的網(wǎng)頁(yè)www.china.org,另外一個(gè)指向網(wǎng)頁(yè)www.obama.org。出鏈對(duì)應(yīng)的錨文字分別為:“奧巴馬”,“中國(guó)”和“中國(guó)領(lǐng)導(dǎo)人”。

圖6-25 Hilltop算法分值傳遞

從圖示的鏈接關(guān)系可以看出,網(wǎng)頁(yè)P(yáng)中能夠支配www.china.org這個(gè)目標(biāo)頁(yè)面的“關(guān)鍵片段”集合包括:{中國(guó)領(lǐng)導(dǎo)人,中國(guó),

奧巴馬訪問(wèn)中國(guó)

,標(biāo)題:奧巴馬訪問(wèn)中國(guó)}。而能夠支配www.obamba.org目標(biāo)頁(yè)面的“關(guān)鍵片段”集合包括:{奧巴馬,

奧巴馬訪問(wèn)中國(guó)

,標(biāo)題:奧巴馬訪問(wèn)中國(guó)}。

接下來(lái)我們分析“專(zhuān)家頁(yè)面”P在接收到查詢(xún)時(shí),是怎樣將分值傳遞給與其有鏈接關(guān)系的“目標(biāo)頁(yè)面”的。假設(shè)系統(tǒng)接收到的查詢(xún)請(qǐng)求為“奧巴馬”,在接收到查詢(xún)后,系統(tǒng)首先根據(jù)上述章節(jié)所述,找出“專(zhuān)家頁(yè)面”并給予分值,而網(wǎng)頁(yè)P(yáng)是作為“專(zhuān)家頁(yè)面”其中一個(gè)頁(yè)面,并獲得了相應(yīng)的分值S,我們重點(diǎn)關(guān)注分值傳播步驟。

對(duì)于查詢(xún)“奧巴馬”來(lái)說(shuō),網(wǎng)頁(yè)P(yáng)中包含這個(gè)查詢(xún)?cè)~的“關(guān)鍵片段”集合為:{奧巴馬,

奧巴馬訪問(wèn)中國(guó)

,標(biāo)題:奧巴馬訪問(wèn)中國(guó)},如上所述,這三個(gè)“關(guān)鍵片段”都能夠支配www.obama.org頁(yè)面,所以網(wǎng)頁(yè)P(yáng)傳遞給www.obamba.org的分值為S*3。而對(duì)于目標(biāo)頁(yè)面www.china.org來(lái)說(shuō),這三個(gè)“關(guān)鍵片段”中只有{

奧巴馬訪問(wèn)中國(guó)

,標(biāo)題:奧巴馬訪問(wèn)中國(guó)}這兩個(gè)能夠支配目標(biāo)頁(yè)面,所以網(wǎng)頁(yè)P(yáng)傳遞給www.china.org的分值為S*2。

對(duì)于包含多個(gè)查詢(xún)?cè)~的用戶(hù)請(qǐng)求,則每個(gè)查詢(xún)?cè)~單獨(dú)如上計(jì)算,將多個(gè)查詢(xún)?cè)~的傳遞分值累加即可。

5. Hilltop在應(yīng)用中不足

專(zhuān)家頁(yè)面的搜索和確定對(duì)算法起關(guān)鍵作用,專(zhuān)家頁(yè)面的質(zhì)量決定了算法的準(zhǔn)確性;而專(zhuān)家頁(yè)面的質(zhì)量和公平性在一定程度上難以保證。Hiltop忽略了大多數(shù)非專(zhuān)家頁(yè)面的影響。

在Hilltop的原型系統(tǒng)中,專(zhuān)家頁(yè)面只占到整個(gè)頁(yè)面的1.79%,不能全面反映民意。

Hilltop算法在無(wú)法得到足夠的專(zhuān)家頁(yè)面子集時(shí)(少于兩個(gè)專(zhuān)家頁(yè)面),返回為空,即Hilltop適合于對(duì)查詢(xún)排序進(jìn)行求精,而不能覆蓋。這意味著Hilltop可以與某個(gè)頁(yè)面排序算法結(jié)合,提高精度,而不適合作為一個(gè)獨(dú)立的頁(yè)面排序算法。

Hilltop存在與HITS算法類(lèi)似的計(jì)算效率問(wèn)題,因?yàn)楦鶕?jù)查詢(xún)主題從“專(zhuān)家頁(yè)面”集合中選取主題相關(guān)的頁(yè)面子集也是在線運(yùn)行的,這與前面提到的HITS算法一樣會(huì)影響查詢(xún)響應(yīng)時(shí)間。隨著“專(zhuān)家頁(yè)面”集合的增大,算法的可擴(kuò)展性存在不足之處。

文章轉(zhuǎn)自公眾號(hào):SEO實(shí)戰(zhàn)營(yíng)(ID:ilottecn),原文地址:https://mp.weixin.qq.com/s/5pGDEyVeTgg__dGFhRIQhw

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
鏈接分析算法

相關(guān)文章

  • 學(xué)會(huì)鏈接分析,快速定位網(wǎng)站問(wèn)題

    網(wǎng)站鏈接分析,源于對(duì)Web結(jié)構(gòu)中超鏈接的多維分析,是網(wǎng)站優(yōu)化運(yùn)營(yíng)中不可缺少問(wèn)題診斷方法。百度站長(zhǎng)平臺(tái)也推出自己的鏈接分析工具,并且很多同學(xué)總結(jié)出了自己的心得,今天我們請(qǐng)到百度站長(zhǎng)社區(qū)的版主:響1亮2的3名4字,為大家分享他的心得。

    標(biāo)簽:
    鏈接分析算法
  • SEO深度解讀之HITS鏈接分析算法

    HITS(Hyperlink-InducedTopicSearch)鏈接分析算法誕生在1997年,該算法是由康奈爾大學(xué)中的一位博士提出,并且該算法沿用于全球多個(gè)搜索引擎當(dāng)中。當(dāng)然,不同的搜索引擎針對(duì)于該算法的側(cè)重點(diǎn)和內(nèi)部公式都有不一的算法結(jié)構(gòu)調(diào)整,并且HITS算法也是鏈接分析中最為重要的基礎(chǔ)算法之一

  • 某個(gè)軟件公司網(wǎng)站的導(dǎo)航與內(nèi)部鏈接分析

    這是一個(gè)關(guān)于軟件開(kāi)發(fā)方面的公司,我是通過(guò)搜索引擎隨便找的一個(gè)網(wǎng)站進(jìn)行分析的,當(dāng)然我搜索的關(guān)鍵詞排在了搜索引擎首頁(yè)前幾名的位置,于是我決定點(diǎn)擊進(jìn)去看了一下這個(gè)網(wǎng)站的基本情況。從某些方面來(lái)說(shuō),一個(gè)競(jìng)爭(zhēng)度比較大的關(guān)鍵詞能夠排在首頁(yè)的位置,必然會(huì)有它的獨(dú)到之處和優(yōu)勢(shì)。我喜歡看網(wǎng)站的導(dǎo)航和網(wǎng)站內(nèi)部鏈接來(lái)判斷這

    標(biāo)簽:
    鏈接分析算法
  • 如何利用好百度站長(zhǎng)工具的鏈接分析 來(lái)定位網(wǎng)站可能存在的SEO問(wèn)題

    (1)查找是否有黑鏈出現(xiàn)——從日志分析,百度蜘蛛抓取了網(wǎng)站的哪些預(yù)期外的頁(yè)面,是否存在黑鏈。(這個(gè)可能要先賣(mài)個(gè)關(guān)子,因?yàn)檫@又是個(gè)大工程啦,本期專(zhuān)題會(huì)提到一些)(2)百度站長(zhǎng)工具外鏈分析——查看是否有垃圾外鏈、黑鏈等,以及鏈向的站內(nèi)什么地方,如何處理。(本期里面也有所涉及)(3)百度站長(zhǎng)工具鏈接分析—

熱門(mén)排行

信息推薦