當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

百度lee:搜索引擎索引系統(tǒng)概述(二)

 2013-10-28 21:34  來(lái)源: A5專(zhuān)欄   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

10月21日,百度lee簡(jiǎn)要介紹了搜索引擎索引系統(tǒng)概述(一),主要講的就是搜索引擎的倒排索引,還是先來(lái)百科一下:Query,是查詢(xún)的意思,為了在數(shù)據(jù)庫(kù)中尋找某一特定文件、網(wǎng)站、記錄或一系列記錄,由搜索引擎或數(shù)據(jù)庫(kù)送出的消息;term是單詞文本,即關(guān)鍵詞。

今天,百度Lee公布了搜索引擎索引系統(tǒng)概述第二部分,以下是原文:

實(shí)際上在建立倒排索引的最后還需要有一個(gè)入庫(kù)寫(xiě)庫(kù)的過(guò)程,而為了提高效率這個(gè)過(guò)程還需要將全部term以及偏移量保存在文件頭部,并且對(duì)數(shù)據(jù)進(jìn)行壓縮,這涉及到的過(guò)于技術(shù)化在此就不多提了。今天簡(jiǎn)要給大家介紹一下索引之后的檢索系統(tǒng)。

檢索系統(tǒng)主要包含了五個(gè)部分,如下圖所示:

(1)Query串切詞分詞即將用戶(hù)的查詢(xún)?cè)~進(jìn)行分詞,對(duì)之后的查詢(xún)做準(zhǔn)備,以“10號(hào)線(xiàn)地鐵故障”為例,可能的分詞如下(同義詞問(wèn)題暫時(shí)略過(guò)):

10 0x123abc

號(hào) 0x13445d

線(xiàn) 0x234d

地鐵 0x145cf

故障 0x354df

(2)查出含每個(gè)term的文檔集合,即找出待選集合,如下:

0x123abc 1 2 3 4 7 9…..

0x13445d 2 5 8 9 10 11……

……

……

(3)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個(gè)求交過(guò)程實(shí)際上關(guān)系著整個(gè)系統(tǒng)的性能,這里面包含了使用緩存等等手段進(jìn)行性能優(yōu)化;

(4)各種過(guò)濾,舉例可能包含過(guò)濾掉死鏈、重復(fù)數(shù)據(jù)、色情、垃圾結(jié)果以及你懂的;

(5)最終排序,將最能滿(mǎn)足用戶(hù)需求的結(jié)果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評(píng)價(jià)、網(wǎng)頁(yè)質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時(shí)效性等等,之后會(huì)詳細(xì)給大家介紹。

好了,上面的的大家可能不太懂,木木SEO給大家來(lái)解釋一下:

前面(1)就是搜索引擎將提取文中關(guān)鍵詞,按分詞程序劃分好的詞,同時(shí)記錄每個(gè)詞在頁(yè)面中出現(xiàn)的頻率、出現(xiàn)的次數(shù)、格式(如加粗、傾斜、黑體、H標(biāo)簽、加顏色、錨文字等)、位置。然后把這些詞語(yǔ)記錄為串關(guān)鍵詞集合,那么這些詞的相關(guān)信息如格式、權(quán)重等也會(huì)記錄在案。實(shí)際在搜索引擎中每個(gè)關(guān)鍵詞也被轉(zhuǎn)換為ID形式記錄,然后每個(gè)文件ID對(duì)應(yīng)一串關(guān)鍵詞ID。這種每個(gè)文件ID對(duì)應(yīng)一個(gè)串關(guān)鍵詞ID這樣的數(shù)據(jù)結(jié)構(gòu)被稱(chēng)之為正向索引。比如文件1對(duì)應(yīng)1、2這二個(gè)關(guān)鍵詞,文件2對(duì)應(yīng)1、3這二個(gè)關(guān)鍵詞。

而(2)就是將每一串關(guān)鍵詞ID對(duì)應(yīng)文件ID,比如關(guān)鍵詞2對(duì)應(yīng)文件1、3,如此一來(lái)大大縮短搜索引擎掃描索引庫(kù)中的文件,縮短掃描時(shí)間。提升搜索引擎的效率。

文章編輯自:木木SEO博客 有問(wèn)題可以咨詢(xún)!

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 百度站長(zhǎng)平臺(tái):百度LEE漫談移動(dòng)化

    在3月19日的百度站長(zhǎng)平臺(tái)蝶變行動(dòng)專(zhuān)場(chǎng)沙龍現(xiàn)場(chǎng),百度LEE團(tuán)隊(duì)主要成員、移動(dòng)搜索產(chǎn)品負(fù)責(zé)人熊詠志老師針對(duì)現(xiàn)階段大熱的PC移動(dòng)化問(wèn)題闡述了自己的看法,值得同學(xué)們好好學(xué)習(xí)一下,匯總起來(lái)要點(diǎn)如下:?理清目標(biāo)用戶(hù)需求,切忌盲目移動(dòng)化?移動(dòng)適配要全面,以免流量流失?盡快在百度站長(zhǎng)平臺(tái)驗(yàn)證站點(diǎn),享受專(zhuān)項(xiàng)服務(wù)20

  • 百度站長(zhǎng)平臺(tái):搜索引擎索引系統(tǒng)概述

    眾所周知,搜索引擎的主要工作過(guò)程包括:抓取、存儲(chǔ)、頁(yè)面分析、索引、檢索等幾個(gè)主要過(guò)程。過(guò)去幾周給大家介紹了抓取相關(guān)的簡(jiǎn)要過(guò)程。今天簡(jiǎn)要介紹一下索引系統(tǒng),以?xún)|為單位的網(wǎng)頁(yè)庫(kù)中查找特定的某些關(guān)鍵詞猶如大海里面撈針,也許一定的時(shí)間內(nèi)可以完成查找,但是用戶(hù)等不起,從用戶(hù)體驗(yàn)角度我們必須在毫秒級(jí)別給予用戶(hù)滿(mǎn)意

  • 百度站長(zhǎng)平臺(tái)沙龍:百度Lee解密新一代搜索引擎

    “百度之夜”百度站長(zhǎng)平臺(tái)高端沙龍?上海站紀(jì)實(shí)A5站長(zhǎng)網(wǎng)(babqa.cn)消息,10月16日晚,“百度之夜”——百度站長(zhǎng)平臺(tái)高端沙龍?上海站在Caffebene咖啡召開(kāi)。來(lái)自攜程、大眾點(diǎn)評(píng)、1號(hào)店、途牛等60余家上海知名網(wǎng)站的互聯(lián)網(wǎng)精英濟(jì)濟(jì)一堂。百度的搜索專(zhuān)家Lee對(duì)百度最近推出的知心搜

    標(biāo)簽:
    百度lee
  • 百度lee:搜索引擎索引系統(tǒng)概述(一)

    從上次8月份百度站長(zhǎng)平臺(tái)lee發(fā)布關(guān)于搜索引擎抓取信息后2個(gè)月已經(jīng)過(guò)去,這次lee繼續(xù)發(fā)布了搜索引擎索引系統(tǒng)的信息。不管怎么樣,木木SEO認(rèn)為百度官方的公告我們還是要了解和分析的。下面是百度官方公告:

  • 百度lee:建立符合搜索抓取習(xí)慣的網(wǎng)站

    之前百度站長(zhǎng)lee給大家介紹了搜索抓取系統(tǒng)工作原理,根據(jù)該工作原理今天簡(jiǎn)要介紹一下如何建立網(wǎng)站是符合搜索引擎抓取系統(tǒng)習(xí)慣的。

    標(biāo)簽:
    搜索抓取
    百度lee

熱門(mén)排行

信息推薦