當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

百度站長平臺:搜索引擎索引系統(tǒng)概述

 2015-06-17 15:00  來源: 百度站長平臺   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關的簡要過程。今天簡要介紹一下索引系統(tǒng),以億為單位的網(wǎng)頁庫中查找特定的某些關鍵詞猶如大海里面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結果,否則用戶只能流失。怎樣才能達到這種要求呢?

如果能知道用戶查找的關鍵詞(query切詞后)都出現(xiàn)在哪些頁面中,那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程:

(1)頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區(qū)域等等;

(2)分詞的過程實際上包括了切詞分詞同義詞轉換同義詞替換等等,以對某頁面title分詞為例,得到的將是這樣的數(shù)據(jù):term文本、termid、詞類、詞性等等;

(3)之前的準備工作完成后,接下來即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應用【doc->term】呢?

上述即是索引系統(tǒng)中的倒排索引過程,是搜索引擎實現(xiàn)毫秒級檢索非常重要的一個環(huán)節(jié)。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

  • 最接地氣的SEO指南 讓新入行的你少走一大段彎路

    老賀是2005年開始做網(wǎng)站的,那時候我們國內的網(wǎng)站并不多,但是每天分享知識的人卻不少,整天混跡在A5站長網(wǎng)、站長之家、落伍者上面,不斷的充實自己,不過信息良莠不齊,也走了很多的彎路。之后在實踐、實戰(zhàn)中有了技能,在2008年的時候,老賀開始對外搞SEO,就這樣一晃十多年過去了。今天這篇文章,老賀只寫一

  • 百度會區(qū)別對待不同域名前后綴嗎?

    我曾在另一個SEO博客中發(fā)表過一篇文章,是關于“百度是否會區(qū)別對待不同域名后綴”的文章,在文章中我提出了一個觀點,明確指出“百度不會區(qū)別對待不同后綴的域名”,每一種后綴的域名享有同等待遇。

    標簽:
    百度seo
  • 談談全網(wǎng)SEO矩陣是什么?一般怎么做?【舉例】

    大家好,我是白楊SEO,專注SEO十年,SEO流量實戰(zhàn)派,企業(yè)流量增長顧問。擅長研究各平臺自然搜索流量玩法。曾帶一個PCB項目,從0-1,現(xiàn)該項目年營收10億+。曾靠一篇文章引流精準粉絲1000+,變現(xiàn)3萬+。個人原創(chuàng)公眾號:白楊SEO。一年不到,關注人數(shù)從0到5000+,目前關注25000+。

  • 百度正在暴力截流SEO還有用嗎

    百度的核心流量階層基本已經(jīng)固化,新的站點很難會有太多的流動機會,這個時候就需要去豐富流量的來源類型,避免把雞蛋都裝在一個籃子里。比如下面這個站點,谷歌和必應的流量占比都在不斷的上漲中,這也是平臺向內容生產者釋放出的友好信號,是值得去重點拓展維護的。

    標簽:
    百度seo
  • 怎么巧用百科讓網(wǎng)站排名上升流量倍增?

    怎么巧用百科讓網(wǎng)站排名上升流量倍增?很多朋友的網(wǎng)站優(yōu)化以后還是沒有得到很好的排名,沒關系,今天給大家分享一個技巧,就是使用百科讓沒排名的網(wǎng)站迅速排名,需要的朋友可以參考下

熱門排行

信息推薦