我我色综合 ,欧美精品国产精品日韩久久,人人妻人人添人人爽日韩欧美

從云而上，以邊緣為終。

計算支持的層面上云計算、霧計算、邊緣計算等相繼而起，從場景層面上，智能家居、工業(yè)制造、交通政務、環(huán)境勘測等各自芬芳。我們能看到的算力形態(tài)已開始百花爭艷，而在我們看不到的地方，依然有著旺盛的算力需求。

隨著“十四五”計劃的不斷落地，加快數(shù)字化發(fā)展，大力發(fā)展數(shù)字經濟，打造具有國際競爭力的數(shù)字產業(yè)集群，全面實施智能制造行動計劃，業(yè)已成為我國當前發(fā)展的重點之一。而企業(yè)想要從中脫穎而出，如何突破算力的迷局，找到更加高效的算力形態(tài)，就變得至關重要。據英特爾預測，全球的算力需求預計到 2025 年將提升 1000 倍。那么算力需求如此旺盛，哪里才能得到這樣的算力呢?算力的形態(tài)如此豐富，最終的答案究竟是什么?是 CPU?GPU?ASIC?還是 FPGA?近年來，我們看到了一個更加可靠的答案，那就是：“我全都要。”

異構計算：不僅僅是多面手

“我全都要”并非一種貪心，而是一種趨勢。

數(shù)字化建設的根源在數(shù)據，也在智能。而各行業(yè)日趨復雜的大數(shù)據和 AI 應用環(huán)境下，算力需求爆發(fā)式增長，這不僅是量在增加，形態(tài)也在變化。但是，作為一家企業(yè)，算力與架構及系統(tǒng)的綁定關系使得他們不可能頻繁更換底層，因此，當算力的供給增長無法跟上算力需求的腳步，多元化算力的概念就被人開始提起。

異構計算是多元算力的典型?？缭綐肆?CPU)、矢量(GPU)、矩陣(ASIC)、空間(FPGA)的異構計算，如今已經成為企業(yè)推動 IT 基礎設施重構的重要力量。其能夠將不同架構的運算單元整合到一起進行并行計算，以最適合的專用硬件去做最適合的事如密集計算或外設管理等，從而達到性能和成本的最優(yōu)化。因此很多企業(yè)開始嘗試使用異構計算來化解算力瓶頸，挖掘和實現(xiàn)算力增長。

多元算力的應用場景正在變得越發(fā)廣泛，以快手為例，其在內容生產、內容理解、內容分發(fā)、內容消費等過程中都多元算力有著大量需求。尤其是在推薦系統(tǒng)方面，快手采用了計算與存儲分離的架構模式，推薦系統(tǒng)中的存儲型服務主要是用來存儲和實時更新上億規(guī)模的用戶畫像、數(shù)十億規(guī)模的短視頻特征、以及千億規(guī)模的排序模型參數(shù)。其中參數(shù)服務器是一個容量和帶寬受限的系統(tǒng)，需要支撐每秒數(shù)億次的KV請求;參數(shù)服務器的KV請求也高達每秒數(shù)億次，大規(guī)模查表會消耗大量 CPU 資源，成為其性能的主要瓶頸。

異構計算正是快手與英特爾聯(lián)手給出的答案，通過將負載卸載到專門優(yōu)化的芯片上，將有助于消除性能瓶頸，在吞吐量與延時方面實現(xiàn)顯著改善。

快手 LaoFe NDP 異構計算架構

快手可提供異構加速選項的 LaoFe NDP 架構在計算層采用英特爾 CPU、FPGA、PMEM 等器件，實現(xiàn)了基于 LaoFeNDP 架構的 FPGA based KVS 實踐落地，進一步提升快手在推薦、搜索、廣告、風控等各種場景的應用性能。同時，其通過計算體系結構創(chuàng)新、軟硬一體化、領域專用加速器設計，通過網絡存、存儲、計算三重加速來提供低延遲、高并發(fā)、高吞吐、低總體擁有成本(TCO)的基礎資源。

三重加速，正是異構計算獨有的魅力所在。

快手 LaoFe NDP 架構圖網絡方面，LaoFe NDP 架構將 CPU 收發(fā)網絡數(shù)據操作，卸載到 FPGA 上。Client 發(fā)送的請求包直接發(fā)送給 FPGA。相比 gRPC 基于 TCP/IP，功能過于復雜，性能和延時方案無法保證。而使用基于 FPGA 實現(xiàn)了一套 SD-RDMA 協(xié)議，通過應用層添加字段的方式，保證了類似 gRPC 的可靠性傳輸，這大大降低了請求時延。

存儲方面，LaoFe NDP 架構將 CPU 存儲操作也卸載到 FPGA 上。為了可以最大程度發(fā)揮 FPGA 的能力，快手基于通用 KV 存儲場景定制了一套易于 FPGA 訪問的 KV(Key-Value)引擎。同時，其支持 SSD/英特爾® 傲騰™ 持久內存/DRAM 內存、基于 hash 的 Key-Value 存儲引擎，能夠有效加速存儲性能。通過實戰(zhàn)檢驗，使用 KV 查表的吞吐相比 CPU 方案提升了足足 5 倍以上。

計算方面，LaoFe NDP 架構通過 DSA 的方式將計算操作卸載到 FPGA 上，實現(xiàn)了一個領域專用處理器。領域專用處理器是一類針對特定領域量身定制的處理器。它針對特定領域可編程，同時在特定領域問題處理上能帶來顯著的性能和效率的提升。再加上英特爾® 至強® 可擴展處理器、英特爾® FPGA 等設備，可以幫助快手將 LaoFe NDP 架構優(yōu)勢發(fā)揮到極致。

網絡、存儲、計算加速后示意圖

異構計算背后，一場性能的變局

事實上，異構計算并非新的概念，其早在上世紀 80 年代中期就已經被踢出，當時便被認為有著計算能力強、可擴展性好、資源利用率高等特點。但是，為什么異構計算時至今日，才再次發(fā)揮出巨大作用呢?

我們知道技術是發(fā)展的，很多在以往無法實現(xiàn)的構思，可能在若干年后發(fā)光發(fā)熱。就比如 1956 年提出的人工智能技術，在半個世紀后才發(fā)展壯大并成為了社會生活必不可缺的一部分。支撐起其變化的一方面是數(shù)據處理技術的成熟，另一方面就是算力自身的發(fā)展。異構計算也是如此，英特爾在其發(fā)展的過程中起到的關鍵作用。

在快手的 LaoFe NDP 架構中，英特爾® Stratix® 10 FPGA 表現(xiàn)十分出眾。全新的英特爾 Hyperflex™ FPGA 架構相比前一代時鐘頻率提高了 2 倍，功耗降低了 70%。此外，更快的時鐘頻率減小了總線寬度和知識產(IP)的規(guī)模，釋放了更多分 FPGA 資源，以添加更強大的功能。同時它采用了超感知設計工具，減少了布線擁塞和設計迭代，提高了設計工作的效率。

一只蝴蝶都可能引發(fā)一場風暴，更何況是產品效能的全面提升。當英特爾® Stratix® 10 FPGA 在 LaoFe NDP 每個環(huán)節(jié)中頻繁出現(xiàn)，其帶來的影響是巨大的。

1. 通過將負載從 CPU 卸載到 FPGA 中，并采用 Hash 表查找優(yōu)化、隨機訪存、讀寫分離等方式，快手將單節(jié)點參數(shù)服務器的吞吐性能提升了 5-6 倍，整體請求延時則降低 70%-80% ，這有助于提升上層應用的實時性，提供更佳的用戶交互體驗。

2. 由于 FPGA based KVS 方案能夠在單節(jié)點服務器中提供遠超傳統(tǒng)方案的吞吐性能，因此僅需要部署少量的服務器就能夠滿足特定的性能指標要求(替代比可達 1:5)，從而降低參數(shù)服務器的 TCO。

3. 通過使用 FPGA 來進行查表，能夠有效地降 CPU 由于高頻率更新而產生的性能抖動。

總結一下，英特爾® Stratix® 10 FPGA 為快手 LaoFe NDP 架構提供了富于彈性的可編程硬件能力，減少延時，實現(xiàn)精確控制，而且其單位算力功耗低、片上內存大，能夠適用于延時要求高、批處理(Batch)比較小、并發(fā)性和重復性強的應用場景。

FPGA based KVS 方案與傳統(tǒng)方案性能對比

英特爾® 至強® 可擴展處理器針對眾多工作負載類型和性能等級而優(yōu)化的平衡架構，其對于 LaoFe NDP 非常重要，能夠為之提供內置的人工智能加速和高級安全功能，可提供無縫性能基礎，幫助從邊緣到云加快數(shù)據的變革性影響。除此以外它橫跨計算、網絡、存儲的平臺創(chuàng)新和硬件增強虛擬化，均支持新型內存創(chuàng)新，促進以經濟實惠、靈活、可擴展的方式實現(xiàn)邊緣到云的傳輸，從而一致地提供出色的企業(yè)對企業(yè)(B2B)和企業(yè)對消費者(B2C)體驗。同時英特爾硬件增強的安全性有助于抵御惡意攻擊，同時保持工作負載的完整性和性能。

英特爾® 傲騰™ 持久內存集高速、高性價比、大容量、持久數(shù)據保護和高級加密等優(yōu)勢于一體，在其推出之時便引發(fā)了巨大反響。它能夠為 LaoFe NDP 增加全新的內存和存儲層級，縮小內存和存儲層次架構之間的關鍵差距，從而實現(xiàn)更智能、更靈活的架構。其能實現(xiàn)每臺服務器的內存容量翻倍，且每臺虛擬機的成本降低達 25%，在進行實時分析和 AI 工作負載等需要處理大量數(shù)據集的服務，性能提升可高達 2 倍。除此以外它還提供了內存模式(Memory Mode)和應用直接訪問模式(App Direct Mode)兩種模式。在內存模式下，英特爾® 傲騰™ 持久內存可作為經濟高效的 DRAM 替代品。CPU 內存控制器會把持久內存視作易失性的系統(tǒng)內存，表現(xiàn)與 DRAM 類似，同時 CPU 內存控制器會將 DRAM 內存用作持久內存的高速緩存。該模式能夠提供更大的內存容量，這對于異構計算的提升效果是巨大的。

軟硬并進，異構即兼容

你見，或者不見，算力就在那里。異構計算衍生發(fā)展數(shù)十年，其就像一座礦山，等待用戶的去發(fā)掘。寶劍贈英雄，開發(fā)者們如何充分挖掘現(xiàn)有異構硬件的性能，獲得最優(yōu)性價比的 IT 資源才是關鍵。

“軟硬兼施”才能更好的應對異構計算的需求。

在硬件層面，英特爾提出 XPU 戰(zhàn)略，完善在 CPU、GPU、ASIC、FPGA 領域的產品線。不僅通過性能核心和能效核心戰(zhàn)略，使CPU中不同核心負責不同工作負載，實現(xiàn) CPU 集群自身的異構，同時通過 AMX、SSE、AVX、AVX-512 等指令集擴展，大幅度提升 CPU 的 AI 運算性能。在全新的第四代英特爾®至強®可擴展處理器中，加入了更多異構加速引擎，比如加速內存拷貝的 DSA，加速網絡處理的 DLB，加速大數(shù)據分析的 IAA，加速數(shù)據加解密、壓縮解壓縮的 QAT，使 CPU 彈性進一步提升，輕松應對多種工作負載的性能加速需求。

除了 CPU，英特爾還提供面向云游戲、視頻處理、虛擬桌面和 AI 推理的 Flex 系列 GPU，面向 HPC 和 AI 訓練/推理的 GPU Ponte Vecchio。而針對特定的 AI 加速，英特爾還打造了面向AI訓練和推理的專用人工智能處理器 Habana，豐富 ASIC AI 芯片的生態(tài)系統(tǒng)。

針對數(shù)據中心部署和應用中的數(shù)據流處理、計算加速和存儲加速等問題，英特爾® Stratix® 10 和最新的 Agilex™ FPGA 芯片，以編程的靈活性、高并發(fā)、高吞吐性能和低延遲特性，被廣泛使用在各大云計算公司的數(shù)據中心中。值得一提的是，為了幫助云服務提供商轉移基礎設施功能任務，最大化 CPU 資源，獲得更多收入，英特爾還提供能夠清晰隔離基礎設施功能和租戶工作負載的，且基于 FPGA 和 ASIC 的 IPU，以滿足用戶的多樣化需求。

在軟件層面，英特爾也在持續(xù)發(fā)力，最大化硬件性能。其重磅推出的 oneAPI，作為統(tǒng)一的軟件編程架構，可以支持多種異構計算單元，為上層的軟件開發(fā)者提供一套應用開發(fā)接口，以解決未來應用功能在 CPU、GPU 等因為分布或是硬件升級后需要重寫軟件代碼的問題。OneAPI 不局限于支持英特爾硬件，也支持其他廠商的硬件。同時提供基于 API 的各種高性能庫，可以在多種異構平臺上運行并提供極高的性能，其中很多庫將開源，英特爾鼓勵生態(tài)協(xié)作創(chuàng)新，共同推動異構計算的發(fā)展與演進。

我們不難發(fā)現(xiàn)，異構計算的網，正在鋪成智能時代的路。英特爾對于異構計算架構在軟硬件層面不斷進行調優(yōu)與支持，軟硬兼?zhèn)?，幫助開發(fā)者更加高效地進行數(shù)據的存儲與處理，推動智能化發(fā)展進程。LaoFeNDP 架構就是英特爾與快手的一次成功嘗試，其證明了通過異構計算來加速不同的負載，能夠顯著提升在推薦等場景下的系統(tǒng)吞吐與延時表現(xiàn)。

面向未來，為構建高性能、低成本、靈活高效的異構計算平臺，需要更多的技術協(xié)同應用，共同推進數(shù)據中心升級。可以預見，PCIe 5.0、DDR5、Scalable IOV、虛擬內存共享技術 SVM、CXL 等技術都將發(fā)光發(fā)熱。當 CPU、XPU、共享內存、共享存儲等技術將通過智能網絡架構和 IPU 互聯(lián)，更加強大的異構計算能力和數(shù)據中心必將為數(shù)字化的世界提供源源不斷的算力支撐。

觀看英特爾聯(lián)合國際學術期刊《科學》共同推出的“架構師成長計劃” 第六期《異構計算數(shù)據中心“芯”變革》精彩回放點擊鏈接：https://bizwebcast.intel.cn/planlist.aspx?tc=7guw8u19br&frm=wechatkol

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

當前位置：首頁 > 科技 > IT業(yè)界 > 正文

算力三重加速，底層芯片廠商驅動企業(yè)業(yè)務增長

相關文章

北京君正2022年存儲芯片營收40.55億，國產芯片的春天就要來了？

2304分區(qū)+定制聚光芯片鈦度34寸新MiniLED曲面顯示器亮相

新一代“芯皇”即將登場，聯(lián)發(fā)科官宣天璣旗艦新品發(fā)布會定檔11月8日

聯(lián)發(fā)科分享MPE融合技術，天璣芯片壓準高精度導航趨勢，實測效果出色肉眼可見

聯(lián)發(fā)科秀出技術肌肉，網友：這是真實力，期待新一代天璣旗艦芯片

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網廣告的存在意義何在？

熱門標簽

當前位置：首頁 > 科技 > IT業(yè)界 > 正文

算力三重加速，底層芯片廠商驅動企業(yè)業(yè)務增長

相關文章

北京君正2022年存儲芯片營收40.55億，國產芯片的春天就要來了？

2304分區(qū)+定制聚光芯片 鈦度34寸新MiniLED曲面顯示器亮相