當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  網(wǎng)站運(yùn)營(yíng) >  正文

百度,請(qǐng)別在動(dòng)我的蛋糕(cookie)!

 2007-08-14 15:51  來(lái)源:   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

    不靠譜

    包子餡不靠譜,

    包子餡的報(bào)道更不靠譜

    韓國(guó)隊(duì)不靠譜

    日本隊(duì)也不靠譜

    中國(guó)隊(duì)掉鏈子靠譜

    17tech說(shuō)呂博望的報(bào)告不靠譜

    呂博望說(shuō)CNNIC的報(bào)告不靠譜

    雅虎覺(jué)得艾瑞報(bào)告不靠譜

    搜狗覺(jué)得易觀報(bào)告的不靠譜

    百度說(shuō),你們都不靠譜,我來(lái)做報(bào)告

    這是我在上一篇文章《誰(shuí)的話(huà)不靠譜》的結(jié)尾。

    最近不靠譜的事情太多,不靠譜的人也太多。不過(guò),呂伯望的報(bào)告就因?yàn)樗纳嵛迦氘a(chǎn)生了0.1%的誤差,遭遇質(zhì)疑,筆者看來(lái)頗有些冤枉;而他在第一次IT龍門(mén)陣上所演示的CNNIC的報(bào)告的缺陷,倒有幾分道理。之后的幾份搜索報(bào)告(艾瑞和易觀)也因調(diào)查結(jié)果大相徑庭而遭遇了質(zhì)疑,看來(lái)搜索報(bào)告還真沒(méi)有多少靠譜的。

    百度卻是真的開(kāi)始作報(bào)告了。最近百度新開(kāi)辟了二級(jí)頻道:百度數(shù)據(jù)研究中心(data.baidu.com),其中有六個(gè)行業(yè)的報(bào)告可供了下載,分別是銀行行業(yè)、基金行業(yè)、網(wǎng)絡(luò)游戲、汽車(chē)業(yè)、化妝品和家電業(yè)。

    大型網(wǎng)站網(wǎng)絡(luò)調(diào)查優(yōu)勢(shì)

    我對(duì)大網(wǎng)站涉足咨詢(xún)行業(yè)還是有些信心,他們至少能在數(shù)據(jù)源的樣本數(shù)量上能得到充分的保證,照理說(shuō)應(yīng)該比較靠譜。呂伯望在回答我關(guān)于調(diào)查成本的問(wèn)題時(shí)表示,電話(huà)調(diào)查雖然相對(duì)入戶(hù)調(diào)查成本大大降低,但也因此產(chǎn)生了一些誤差,調(diào)查受資金限制而產(chǎn)生了一些誤差。在我看來(lái),CNNIC只要把中國(guó)有多少上網(wǎng)人口調(diào)查出來(lái)即可,其他關(guān)于互聯(lián)網(wǎng)用戶(hù)更深入的調(diào)查完全可以通過(guò)網(wǎng)絡(luò)問(wèn)卷的方式完成。網(wǎng)絡(luò)調(diào)查成本極低,而調(diào)查樣本可以大大增加,數(shù)據(jù)的準(zhǔn)確性也有了保證。因此,大型網(wǎng)站在數(shù)據(jù)收集方面擁有一定的優(yōu)勢(shì)。

    百度的報(bào)告靠譜么?

    百度雖然一下子編制了6本報(bào)告,人們卻沒(méi)有看到相關(guān)網(wǎng)絡(luò)調(diào)查表,那么百度是通過(guò)什么方法獲得數(shù)據(jù)的呢?筆者打開(kāi)了其中的一份報(bào)告,關(guān)于調(diào)查方法是這樣描述的:

    搜索引擎能采集用戶(hù)主動(dòng)需求的文字表達(dá)(即關(guān)鍵詞查詢(xún)),因此對(duì)用戶(hù)真實(shí)需求的把握較之門(mén)戶(hù)網(wǎng)站更占優(yōu)勢(shì)。通過(guò) Cookie 跟蹤,能把關(guān)鍵詞與具體的需求掛上鉤。我們假設(shè)每一個(gè)Cookie 代表一個(gè)潛在消費(fèi)者(在技術(shù)上和統(tǒng)計(jì)學(xué)上是成立的,同時(shí)技術(shù)后臺(tái)可屏蔽掉多個(gè)用戶(hù)使用的 Cookie,如網(wǎng)吧 Cookie),那么該 Cookie 在一定時(shí)間內(nèi)的關(guān)鍵詞集合能全面反映他(她)關(guān)注的信息。我們對(duì)這些信息進(jìn)行系統(tǒng)編碼、清理和分析,把不同 Cookie 檢索的關(guān)鍵詞進(jìn)行交叉分析,發(fā)現(xiàn)網(wǎng)民搜索的群體行為,最后整合成行業(yè)報(bào)告。

    原來(lái)百度是依靠用戶(hù)的cookie和對(duì)關(guān)鍵詞的整理分析生成的報(bào)告。那么百度的報(bào)告靠譜么?

    從采樣數(shù)量看,百度是中國(guó)流量最高的網(wǎng)站,每天訪問(wèn)人次數(shù)以?xún)|計(jì),百度的報(bào)告稱(chēng)采樣的數(shù)量達(dá)到了百萬(wàn)數(shù)量級(jí)??梢?jiàn),從調(diào)查用戶(hù)的數(shù)量上看的確非??捎^。

    但從調(diào)查方法上看,筆者認(rèn)為還是存在一定的漏洞。

    其一、百度的技術(shù)后臺(tái)“屏蔽掉多個(gè)用戶(hù)的cookie”,那么意味著,網(wǎng)吧用戶(hù)的統(tǒng)計(jì)被剔除掉。但國(guó)內(nèi)網(wǎng)民在網(wǎng)吧上網(wǎng)的比例有1/3強(qiáng),絕對(duì)數(shù)量巨大。去掉這些信息會(huì)導(dǎo)致結(jié)果出現(xiàn)偏差,這在網(wǎng)絡(luò)游戲上的結(jié)果上最為 明顯。

    其二、國(guó)內(nèi)上網(wǎng)用戶(hù)還普遍存在一個(gè)家庭多個(gè)用戶(hù)的情形,如夫妻共用一臺(tái)電腦,家庭共用一臺(tái)電腦的情形(筆者認(rèn)為這些也比較普遍);

    其三、某些用戶(hù)使用多臺(tái)電腦,例如筆者辦公和家庭就使用不同的電腦,按照百度的統(tǒng)計(jì)口徑,這些用戶(hù)的數(shù)據(jù)被重復(fù)計(jì)算了,而這正是統(tǒng)計(jì)學(xué)所忌諱的。

    其四、百度所有用戶(hù)的調(diào)查結(jié)果是基于百度搜索用戶(hù)的。非搜索引擎用戶(hù)或者非百度用戶(hù),就難以統(tǒng)計(jì)進(jìn)去,這部分用戶(hù)的比例保守估計(jì)也在1/3左右(根據(jù)CNNIC的搜索引擎數(shù)據(jù))。

    因此,百度的報(bào)告正如CNNIC的報(bào)告一樣,在計(jì)算方法上還存在一定的漏洞,盡管龐大的采樣數(shù)據(jù)能夠彌補(bǔ)其中一些不足。筆者認(rèn)為百度的報(bào)告只具有一定參考意義,并不能完全反映行業(yè)全貌。

    當(dāng)然,筆者更關(guān)心的是百度是如何利用我們的cookie來(lái)制作報(bào)告的,百度是不是動(dòng)了我們的cookie,動(dòng)了我們的蛋糕。

    百度,請(qǐng)別動(dòng)我的蛋糕

    Cookie,英文指就著牛奶一起吃的點(diǎn)心,我直接翻譯為“蛋糕”。在因特網(wǎng)內(nèi),“cookie”這個(gè)字有了完全不同的意思。“cookie”是小量信息,由網(wǎng)絡(luò)服務(wù)器發(fā)送出來(lái)以存儲(chǔ)在網(wǎng)絡(luò)瀏覽器上,從而下次這位獨(dú)一無(wú)二的訪客又回到該網(wǎng)絡(luò)服務(wù)器時(shí),可從該瀏覽器讀回此信息。

    Cookie可以保持登錄信息到用戶(hù)下次與服務(wù)器的會(huì)話(huà),換句話(huà)說(shuō),下次訪問(wèn)同一網(wǎng)站時(shí),用戶(hù)會(huì)發(fā)現(xiàn)不必輸入用戶(hù)名和密碼就已經(jīng)登錄了。我們?cè)诘卿浾搲臅r(shí)候就經(jīng)常發(fā)現(xiàn)這種情形。

    百度的報(bào)告編制說(shuō)明中,特意提到了Cookie:

    通過(guò)“關(guān)鍵詞組合”判斷各個(gè) Cookie 代表的個(gè)人信息,比如性別傾向、收入范圍、行業(yè)領(lǐng)域的相關(guān)喜好,我們對(duì)各種需求有一個(gè)“群”的把握,比如剛畢業(yè)(21-23 歲)的女性的總體消費(fèi)特征。

    但百度不以具體用戶(hù)的個(gè)人信息作為分析對(duì)象,一個(gè) Cookie 只是收集需求(關(guān)鍵詞)的橋梁,它代表的人其實(shí)是一個(gè)與實(shí)際需求相聯(lián)系的虛擬人,我們完全不知道他(她)是誰(shuí),也沒(méi)有聯(lián)系方式,但通過(guò)他們的檢索軌跡,我們可以知道他(她)的需求。

    看來(lái)cookie在百度的報(bào)告中是十分關(guān)鍵的一環(huán)。它居然能讓百度不利用傳統(tǒng)的市場(chǎng)調(diào)查問(wèn)卷,僅憑對(duì)用戶(hù)cookie的分析,就能夠收集各種個(gè)人信息:通過(guò)人們的檢索軌跡,而得到用戶(hù)的需求資料,最后形成報(bào)告。

    百度所利用的cookie數(shù)據(jù)應(yīng)該有以下兩種:

    第一種是大多數(shù)情況下,人們并不是登錄百度就進(jìn)行搜索的,由于沒(méi)有錄入帳號(hào)和密碼,百度就沒(méi)法通過(guò)用戶(hù)ID和密碼來(lái)區(qū)分調(diào)查個(gè)體(所謂的虛擬人),為了能夠區(qū)分,百度不得不記錄用戶(hù)的一些電腦信息,如內(nèi)網(wǎng)IP,操作系統(tǒng)信息,瀏覽器信息等等,否則就無(wú)法區(qū)分不同的用戶(hù)。

    第二種在用戶(hù)登錄的情況下(貼吧、知道博客等產(chǎn)品)使用搜索引擎,百度通過(guò)cookie記錄下用戶(hù)的ID和其他信息來(lái)區(qū)分不同對(duì)象。而這類(lèi)用戶(hù)信息在百度的數(shù)據(jù)庫(kù)中可能更加詳細(xì),其中包括用戶(hù)向網(wǎng)站提供的年齡、性別、職業(yè)等等非常全面的信息。

    只有在完成此步以后,百度才有可能對(duì)收集到的人們檢索軌跡進(jìn)行歸類(lèi),分析得到結(jié)果,否則,就只有一堆關(guān)鍵詞,沒(méi)有任何意義。

    顯而易見(jiàn),無(wú)論是哪種方式,百度都是在利用用戶(hù)的cookie和隱私獲得了報(bào)告結(jié)果。這也就不難理解,為什么百度沒(méi)有作一份調(diào)查問(wèn)卷卻能獲得百萬(wàn)數(shù)量調(diào)查樣本,百度在利用我們的cookie和隱私,百度通過(guò)我們的小蛋糕(cookie)完成了他們的大蛋糕(報(bào)告)。

    百度已經(jīng)動(dòng)了我們的蛋糕!百度正在動(dòng)我們的蛋糕!

    微軟公司07年7月23日宣布,用戶(hù)的IP地址和其他與網(wǎng)絡(luò)搜索相關(guān)的識(shí)別數(shù)據(jù),包括用戶(hù)身份證號(hào)碼、出生日期和居住地址等資料,將在18個(gè)月后永久刪除。此外,微軟還承諾,將把搜索關(guān)鍵字與賬戶(hù)資料分開(kāi)存儲(chǔ)

    雅虎和aol將刪除cookie的時(shí)間縮短為13個(gè)月,GOOGLE將刪除cookie的時(shí)間縮短為一年半,搜索引擎保留用戶(hù)敏感數(shù)據(jù)的時(shí)間也在不斷縮短。大型網(wǎng)絡(luò)公司隱私保護(hù)正在不斷加強(qiáng)。

    百度卻在大多數(shù)人不知情的前提下(關(guān)于通過(guò)cookie收集資料,只有在報(bào)告中提及),利用我們的cookie,關(guān)鍵詞檢索記錄制作了一份份行業(yè)報(bào)告。與那些大型網(wǎng)站和他的搜索同行相比,百度實(shí)在應(yīng)該反思一下。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • cookie為何影響搜索引擎優(yōu)化排名?

    百度會(huì)將我們喜歡的網(wǎng)站與內(nèi)容推送到我們的面前。因?yàn)椋覀兲焯鞛g覽自己的網(wǎng)站,所以,在搜索某些關(guān)鍵詞時(shí),我們看到的排名會(huì)更高一些,但這個(gè)排名也不至于特別夸張了

  • 百度優(yōu)化建議合理使用cookie如何解決

    看到百度優(yōu)化提示cookie越小越好,而且對(duì)于靜態(tài)文件需要避免設(shè)置cookie,站長(zhǎng)們估計(jì)不知道該怎么做了,這里我告訴大家我的解決方法。要將靜態(tài)文件放在不同域下,才能讓靜態(tài)文件避免設(shè)置cookie,建議將網(wǎng)站的靜態(tài)文件(如圖片、css、js等)放在一個(gè)專(zhuān)門(mén)的域名下訪問(wèn),由于這個(gè)域名與主站的域名不同,

  • Cookie仍舊是清白的

    谷歌昨天與哥倫比亞特區(qū)檢察機(jī)關(guān)達(dá)成和解,支付1700萬(wàn)美元了結(jié)秘密追蹤網(wǎng)絡(luò)瀏覽,侵犯消費(fèi)者隱私的案子。這已不是谷歌第一次為此類(lèi)行為支付罰款了,去年谷歌還因相同行為被美國(guó)聯(lián)邦貿(mào)易委員會(huì)罰款2250萬(wàn)美元。號(hào)稱(chēng)不作惡的谷歌,在這方面犯下的具體錯(cuò)誤是,利用技術(shù)手段繞開(kāi)蘋(píng)果safari瀏覽器的禁止追蹤功能,

    標(biāo)簽:
    cookie
  • Google ADID來(lái)了 后Cookie時(shí)代的替代品是什么?

    近期鬧得沸沸揚(yáng)揚(yáng)谷歌考慮用一套新的匿名廣告標(biāo)識(shí)符系統(tǒng)AdID取代傳統(tǒng)的cookie追蹤技術(shù)。這套匿名識(shí)別符系統(tǒng),被業(yè)內(nèi)人士形象的比喻為“超級(jí)Cookie”。筆者暫時(shí)將它稱(chēng)之為后Cookie時(shí)代的替代品。筆者認(rèn)為催生“超級(jí)Cookie”或者說(shuō)是傳聞的“GoogleADID”有兩個(gè)很重要的因素:1、傳統(tǒng)

    標(biāo)簽:
    cookie
  • 站長(zhǎng)網(wǎng)每日播報(bào):Cookie引爭(zhēng)議 京東啟用新域名

    1.網(wǎng)購(gòu)化妝品三大傳言起底:水貨、摻假、高仿網(wǎng)銷(xiāo)化妝品80%是假貨的傳聞一時(shí)沸沸揚(yáng)揚(yáng),消費(fèi)者對(duì)于網(wǎng)銷(xiāo)化妝品質(zhì)疑不斷。近日,北京商報(bào)記者多方調(diào)查采訪,撥開(kāi)了低價(jià)網(wǎng)銷(xiāo)化妝品的神秘面紗。相關(guān)閱讀:網(wǎng)購(gòu)化妝品三大傳言起底:水貨、摻假、高仿網(wǎng)購(gòu)化妝品便宜的秘密

    標(biāo)簽:
    cookie

熱門(mén)排行

信息推薦