1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 企業(yè)應(yīng)用
  4. 正文

Oxylabs 首席執(zhí)行官:了解靜態(tài)和動(dòng)態(tài)數(shù)據(jù)

 2022-12-26 09:28  來(lái)源:互聯(lián)網(wǎng)  我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

數(shù)據(jù)收集的操作行為受到越來(lái)越多的關(guān)注,也變得越來(lái)越復(fù)雜。網(wǎng)絡(luò)抓取以及自動(dòng)獲取過(guò)程總體來(lái)說(shuō)極大地改變了數(shù)據(jù)收集的性質(zhì),舊的挑戰(zhàn)得到解決,而新的問(wèn)題也隨之浮現(xiàn)出來(lái)。

其中一個(gè)問(wèn)題就是關(guān)于動(dòng)態(tài)性的數(shù)據(jù)選擇。由于現(xiàn)在我們能夠在幾秒內(nèi)收集難以想象的巨量信息,進(jìn)行特定采樣不再是問(wèn)題。此外,在業(yè)務(wù)上,我們常常會(huì)反復(fù)搜尋相同來(lái)源,以監(jiān)控友商、品牌以及對(duì)于行業(yè)相關(guān)的其他任何內(nèi)容。

因此,數(shù)據(jù)動(dòng)態(tài)性就是一個(gè)優(yōu)化問(wèn)題。在一些情況下,特定字段可能不會(huì)頻繁更新,或者對(duì)于用例來(lái)說(shuō)這些更改并不重要,因此可能不需要每次刷新數(shù)據(jù)。

靜態(tài)與動(dòng)態(tài)數(shù)據(jù)

靜態(tài)數(shù)據(jù)可以通過(guò)兩個(gè)方面來(lái)定義。作為信息對(duì)象,靜態(tài)數(shù)據(jù)是不會(huì)(頻繁)變化的對(duì)象。這種來(lái)源的例子可能包括社論文章、國(guó)家/地區(qū)或城市名稱、活動(dòng)和場(chǎng)所說(shuō)明,等等。事實(shí)新聞報(bào)道一經(jīng)發(fā)表,就不大可能在未來(lái)發(fā)生改動(dòng)。

另一方面,動(dòng)態(tài)數(shù)據(jù)是不斷變動(dòng)中的對(duì)象,常常是由于外部因素而發(fā)生變化。經(jīng)常遇到的動(dòng)態(tài)數(shù)據(jù)類型可能是產(chǎn)品定價(jià)、庫(kù)存數(shù)量、預(yù)訂數(shù)量,等等。

它們中間存在兩大定義的模糊地帶,正如企圖將一切東西都放入整整齊齊的小盒子那樣。產(chǎn)品說(shuō)明、文章元標(biāo)題和內(nèi)容商業(yè)片段等信息對(duì)象有一定的變化頻率。

這些到底屬于靜態(tài)還是動(dòng)態(tài)數(shù)據(jù),取決于預(yù)期用途。無(wú)論數(shù)據(jù)類型如何,項(xiàng)目或多或少會(huì)利用具體的參考來(lái)源。例如,SEO 工具可能發(fā)現(xiàn)定價(jià)數(shù)據(jù)的價(jià)值較低,但會(huì)希望更新元標(biāo)題、描述和其他許多功能。

另一方面,定價(jià)模型則很少用到頻繁更新的產(chǎn)品描述。它們可能需要抓取該信息一次,以進(jìn)行產(chǎn)品匹配。如果將來(lái)出于 SEO 目的對(duì)其進(jìn)行更新,那么仍然沒(méi)有理由再次訪問(wèn)描述。

規(guī)劃數(shù)據(jù)

每個(gè)數(shù)據(jù)分析和收集項(xiàng)目都有其必要性?;氐角懊娴亩▋r(jià)模型例子,這需要兩個(gè)技術(shù)功能:產(chǎn)品比對(duì)和定價(jià)數(shù)據(jù)。

產(chǎn)品需要進(jìn)行比對(duì),因?yàn)槿魏巫詣?dòng)定價(jià)實(shí)施都需要準(zhǔn)確性。錯(cuò)配的產(chǎn)品和變化的定價(jià)可能會(huì)對(duì)營(yíng)收造成巨大損失,尤其是如果這些變化得不到解決的情況下。

大部分比對(duì)工作是通過(guò)產(chǎn)品標(biāo)題、描述和規(guī)格進(jìn)行的。前兩者會(huì)經(jīng)常變化,尤其是在電商平臺(tái)中,其中關(guān)鍵詞優(yōu)化是一項(xiàng)重要的排名因素。不過(guò),它們不會(huì)影響比對(duì)產(chǎn)品編號(hào)的能力,因?yàn)榛A(chǔ)功能不會(huì)變化(例如,iPhone 始終是 iPhone)。

因此,描述和標(biāo)題可以視為靜態(tài)數(shù)據(jù),即使它們有一點(diǎn)動(dòng)態(tài)性質(zhì)。就項(xiàng)目用途而言,變化的影響力不夠大,不值得繼續(xù)監(jiān)控。

可能顯而易見(jiàn)的是,定價(jià)數(shù)據(jù)不僅自然而然地在不斷變化,而且捕捉發(fā)生的任何變化對(duì)于項(xiàng)目也十分重要。因此,它當(dāng)然應(yīng)該視為動(dòng)態(tài)數(shù)據(jù)。

通過(guò)規(guī)劃降低成本

無(wú)論采用的是內(nèi)部還是外部集成方法,數(shù)據(jù)收集和存儲(chǔ)實(shí)踐的成本都非常高。此外,大部分公司將使用基于云的存儲(chǔ)解決方案,其中可能會(huì)將所有寫入操作包括到總體成本中,這意味著更新數(shù)據(jù)將會(huì)削減預(yù)算。

規(guī)劃數(shù)據(jù)類型(即靜態(tài)還是動(dòng)態(tài))可以通過(guò)多個(gè)途徑優(yōu)化數(shù)據(jù)收集過(guò)程。首先,頁(yè)面可以分為靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)或混合數(shù)據(jù)。雖然第一個(gè)類別可能有點(diǎn)膚淺,但它仍表示不需要頻繁再訪問(wèn)這些頁(yè)面。

利用混合頁(yè)面可能也更容易降低寫入操作和存儲(chǔ)成本。降低從一個(gè)地方傳輸?shù)搅硪粋€(gè)地方的數(shù)據(jù)量,這本身就是一種優(yōu)化形式,但這些在考慮到帶寬、讀寫和存儲(chǔ)成本時(shí)會(huì)變得更加有意義。

不過(guò),由于爬蟲通常會(huì)下載整個(gè) HTML,對(duì) URL 的任何訪問(wèn)都會(huì)將整個(gè)對(duì)象存儲(chǔ)在內(nèi)存中。使用外部提供商時(shí),通常會(huì)針對(duì)每個(gè)請(qǐng)求分配成本,因此更新所有數(shù)據(jù)字段與僅更新動(dòng)態(tài)字段之間沒(méi)有區(qū)別。

然而,在一些應(yīng)用場(chǎng)景中,歷史數(shù)據(jù)可能是必要的。每個(gè)時(shí)間段下載并更新含有相同數(shù)據(jù)的相同字段會(huì)無(wú)緣無(wú)故地增加寫入操作和存儲(chǔ)成本。可以實(shí)現(xiàn)一個(gè)簡(jiǎn)單的比較函數(shù)來(lái)檢查是否有任何更改,并僅在更改時(shí)執(zhí)行寫入操作。

最后,使用內(nèi)部抓取系統(tǒng)時(shí),上述全部情況仍然適用,但程度要大得多。想要優(yōu)化成本,可以減少不必要的抓取,限制寫入操作數(shù)量,并僅解析 HTML 的必要部分。

最后,開(kāi)發(fā)框架是實(shí)現(xiàn)真正優(yōu)化的第一步措施。它們可能一開(kāi)始過(guò)于理論化,就像這個(gè)框架那樣,但框架讓我們能夠更好地解讀已經(jīng)實(shí)施到位的過(guò)程。

作者:Julius Cerniauskas,Oxylabs 首席執(zhí)行官

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
數(shù)據(jù)分析

相關(guān)文章

  • LTD樞紐云:信創(chuàng)“全面替換”門戶、黨群、經(jīng)營(yíng)管理類軟件產(chǎn)品

    信創(chuàng)即信息技術(shù)創(chuàng)新,是指通過(guò)自主研發(fā)、技術(shù)創(chuàng)新等方式,實(shí)現(xiàn)信息技術(shù)的自主可控,降低對(duì)外部技術(shù)的依賴,提高國(guó)家信息安全保障能力。

  • 助力企業(yè)跑出數(shù)智升級(jí)加速度,828 B2B企業(yè)節(jié)系列直播火熱開(kāi)啟

    第三屆828B2B企業(yè)節(jié)正在全國(guó)如火如荼進(jìn)行中。作為中國(guó)首個(gè)以“提升企業(yè)數(shù)字化能力、助力企業(yè)穩(wěn)健快速成長(zhǎng)”為目標(biāo)的B2B企業(yè)節(jié),828B2B企業(yè)節(jié)由華為云聯(lián)合上萬(wàn)伙伴共同發(fā)起,目的是為了打通數(shù)字化供需天塹,讓科技企業(yè)和有數(shù)轉(zhuǎn)智改需求的中小企業(yè)能在一站購(gòu)平臺(tái)上完成對(duì)接,實(shí)現(xiàn)成就好生意,成為好企業(yè)的節(jié)日

  • 趙峰:提升銷售領(lǐng)導(dǎo)力,實(shí)現(xiàn)業(yè)績(jī)跨越式發(fā)展

    當(dāng)今世界經(jīng)濟(jì)局勢(shì)復(fù)雜多變,企業(yè)面臨著越來(lái)越激烈的市場(chǎng)競(jìng)爭(zhēng)。在生產(chǎn)方式不斷隨著科技水平的發(fā)展而提升的同時(shí),各個(gè)行業(yè)企業(yè)產(chǎn)品之間的差距越來(lái)越小,企業(yè)單純依靠產(chǎn)品很難在如今的市場(chǎng)競(jìng)爭(zhēng)中取勝。因此,如何為企業(yè)尋求更加富有競(jìng)爭(zhēng)力的銷售能力提升辦法,成為了企業(yè)普遍更加看重的問(wèn)題。趙峰,現(xiàn)任北京正信啟德管理顧問(wèn)有

  • 穿越周期:解碼2024年零售快消行業(yè)數(shù)字發(fā)展機(jī)密(附白皮書下載)

    零售經(jīng)營(yíng)者正處在一個(gè)歷史性的轉(zhuǎn)折點(diǎn)上。一方面,中國(guó)的零售產(chǎn)業(yè)已經(jīng)發(fā)展到門店渠道飽和的狀態(tài),優(yōu)勝劣汰會(huì)是零售產(chǎn)業(yè)未來(lái)一段時(shí)間內(nèi)的主旋律;一方面,中國(guó)消費(fèi)者的價(jià)值觀出現(xiàn)了顯著變化,零售快消市場(chǎng)已經(jīng)進(jìn)入“性價(jià)比時(shí)代”。為此,百望云總結(jié)服務(wù)諸多零售快消經(jīng)營(yíng)者的經(jīng)驗(yàn),集合產(chǎn)品與技術(shù),推出了數(shù)字化解決方案,并取

  • 固態(tài)電池市場(chǎng)大爆發(fā)前夜 這家電池企業(yè)打響第一槍

    受限于三元材料以及磷酸鐵鋰電池在能量密度、安全性、循環(huán)壽命等多方面的限制,純電汽車產(chǎn)品始終無(wú)法完成對(duì)傳統(tǒng)燃油車的致命一擊。在此背景下,優(yōu)勢(shì)明顯的固態(tài)電池被寄予厚望,眾多車企以及電池企業(yè)紛紛加碼這一細(xì)分領(lǐng)域,以求占領(lǐng)技術(shù)制高點(diǎn)。目前,業(yè)界普遍將全固態(tài)電池小批量量產(chǎn)上車的時(shí)間節(jié)點(diǎn)定在2027年左右,大規(guī)

  • 重磅 矢量智控官網(wǎng)正式啟用!

    嘿,朋友們!矢量智控(南京)科技有限公司官網(wǎng)www.ivcon.cn8月31日正式啟用啦!這將是矢量智控的重要里程碑,期待為AI+工業(yè)與制造業(yè)帶來(lái)更深入、更全面的服務(wù)。矢量智控作為南棲仙策旗下工業(yè)智能決策品牌,專注為高端裝備和復(fù)雜流程工業(yè)提供自主智能控制產(chǎn)品和方案。產(chǎn)品積淀前沿AI技術(shù)我們根據(jù)產(chǎn)品的

  • 科沃斯全球首款恒壓活水洗地機(jī)器人亮相,地面清潔能力跨時(shí)代提升?

    北京時(shí)間9月2日凌晨,科沃斯機(jī)器人CEO錢程的一條朋友圈引起業(yè)內(nèi)關(guān)注,搶先揭示了科沃斯將在2024德國(guó)柏林IFA展推出其地寶X系列新品。從簡(jiǎn)短的內(nèi)容中可以窺見(jiàn),科沃斯內(nèi)部對(duì)于這款新品的信心和期待。從錢程朋友圈流出的圖片來(lái)看,猜測(cè)科沃斯此次新品將重點(diǎn)圍繞地面頑垢清潔的提升以及二次污染的問(wèn)題解決。截至上

  • 地球山微電子與AP合作的第二代MEMS揚(yáng)聲器取得重大進(jìn)展

    經(jīng)過(guò)多年堅(jiān)持不懈的努力,以色列AudioPixels公司和中國(guó)地球山微電子公司雙方聯(lián)合研制的數(shù)字像素級(jí)MEMS揚(yáng)聲器技術(shù)取得重大突破。據(jù)AudioPixels官方發(fā)布消息顯示:新研制的第二代MEMS揚(yáng)聲器(GEN-II)所達(dá)到的聲壓級(jí)(SPL或“響度”)已被驗(yàn)證符合其商業(yè)化可行性的數(shù)字聲音重建(DS

  • 縱維立方與3D打印農(nóng)場(chǎng)主相聚2024深圳Formnext展,共探制造新模式

    2024年8月29日,深圳國(guó)際3D打印、增材制造展覽會(huì)(Formnext+PMSouthChina)在深圳國(guó)際會(huì)展中心13號(hào)館隆重舉行。本次展會(huì)以其豐富的活動(dòng)與論壇,再次彰顯了3D打印技術(shù)在商業(yè)發(fā)展中的廣泛應(yīng)用,尤其是在新興的“3D打印農(nóng)場(chǎng)”建設(shè)領(lǐng)域,縱維立方的兩款新品在農(nóng)場(chǎng)主群體中備受關(guān)注,并宣布

  • 拓元智慧受邀參加2024招銀浦江大會(huì),共享新型多模態(tài)大模型的前沿技術(shù)及產(chǎn)業(yè)化實(shí)踐

    8月30日,招商銀行在上海舉辦了“招銀浦江數(shù)字金融生態(tài)大會(huì)”,拓元智慧科技有限公司(以下簡(jiǎn)稱“拓元智慧”)應(yīng)邀參加本次大會(huì)。拓元智慧以其在人工智能領(lǐng)域的深厚積累與前沿探索,吸引了眾多行業(yè)內(nèi)外人士的關(guān)注。公司首席科學(xué)家王廣潤(rùn)博士在論壇上發(fā)表了題為《新型多模態(tài)大模型的前沿技術(shù)及產(chǎn)業(yè)化實(shí)踐》的報(bào)告,深入探

編輯推薦