當(dāng)前,在各大AI大模型激烈競爭的浪潮下,大模型參數(shù)正在呈指數(shù)級激增、上下文長度直指百萬Token。IDC預(yù)計,2025年全球數(shù)據(jù)量將逼近175ZB大關(guān)。龐大的數(shù)據(jù)量讓傳統(tǒng)存算一體架構(gòu)“緊耦合”的固有瓶頸日益凸顯,數(shù)據(jù)存儲與計算資源捆綁配置,要么“大馬拉小車”造成資源閑置,要么難以應(yīng)對峰值負(fù)載,成為了企業(yè)數(shù)字化轉(zhuǎn)型的核心難題。
在此背景下,存算分離技術(shù)迎來產(chǎn)業(yè)化與規(guī)?;碾p重爆發(fā),不僅破解了困擾行業(yè)多年的“內(nèi)存墻”難題,更重構(gòu)了算力基礎(chǔ)設(shè)施的配置邏輯。
打破“捆綁” 重構(gòu)算力配置邏輯
“過去我們的算力資源配置,就像買手機(jī)必須捆綁固定套餐,不管用不用得上,都得全額付費?!睒I(yè)內(nèi)人士向記者表示,在傳統(tǒng)存算一體架構(gòu)下,數(shù)據(jù)存儲與計算單元緊密綁定,企業(yè)為應(yīng)對業(yè)務(wù)峰值,往往需要按最高負(fù)載配置硬件,導(dǎo)致非峰值時段資源利用率不足,運維成本居高不下。
傳統(tǒng)存算架構(gòu)的弊端
存算分離的核心正是打破這種捆綁關(guān)系,實現(xiàn)存儲與計算的“物理解耦、邏輯協(xié)同”,也就是將數(shù)據(jù)存儲功能與計算功能從物理設(shè)備層面拆分,通過高速網(wǎng)絡(luò)實現(xiàn)存儲資源池與計算資源池的獨立部署、彈性調(diào)度,改變傳統(tǒng)緊耦合架構(gòu)中存儲與計算綁定擴(kuò)容的固有模式。
這種架構(gòu)革新的核心價值,在于破解傳統(tǒng)架構(gòu)下三大核心痛點:一是資源浪費,避免算力閑置而存儲不足或存儲冗余而算力短缺的失衡問題;二是擴(kuò)展受限,傳統(tǒng)緊耦合架構(gòu)擴(kuò)容需整體升級設(shè)備,難以適配PB級、EB級數(shù)據(jù)增長需求;三是安全隱患,數(shù)據(jù)與算力綁定存儲,易導(dǎo)致數(shù)據(jù)泄露、故障傳導(dǎo)等風(fēng)險。
分離之后的存儲層可根據(jù)數(shù)據(jù)量按需擴(kuò)容,輕松承載EB級海量數(shù)據(jù);計算層依托Serverless等架構(gòu),隨業(yè)務(wù)負(fù)載彈性伸縮,用完即釋放,避免資源浪費;再借助智能IP廣域網(wǎng)(AI WAN)、CXL等技術(shù),保障跨節(jié)點數(shù)據(jù)傳輸?shù)牡脱舆t與高可靠。
從技術(shù)邏輯來看,存算分離的落地需三大核心支撐:一是高速網(wǎng)絡(luò)傳輸,RDMA(遠(yuǎn)程直接內(nèi)存訪問)、硅光互連等技術(shù)的成熟應(yīng)用,將存儲與計算節(jié)點間的傳輸延遲壓縮至微秒級,為資源解耦提供基礎(chǔ);二是彈性資源調(diào)度,軟件定義存儲技術(shù)的普及,實現(xiàn)存儲資源的動態(tài)分配與按需擴(kuò)容,適配不同場景的算力需求波動;三是高可靠冗余機(jī)制,通過分布式架構(gòu)與創(chuàng)新EC冗余技術(shù),在降低存儲冗余成本的同時,保障數(shù)據(jù)可靠性。這三大支撐技術(shù)在2025年的全面成熟,推動了存算分離從高端場景向通用領(lǐng)域滲透。
中國電子企業(yè)協(xié)會電子信息產(chǎn)融合作工作委員會成員綠算技術(shù)高級副總裁黃飛表示,存算分離并非要取代此前火爆的存算一體技術(shù),而是形成互補共生的格局。存算分離聚焦數(shù)據(jù)中心級、廣域級的大規(guī)模資源調(diào)度,適合AI大模型訓(xùn)推、大數(shù)據(jù)分析等場景;存算一體則側(cè)重端側(cè)、邊緣側(cè)的本地化高效計算,比如車載終端、智能攝像頭等設(shè)備,兩者共同構(gòu)成“端云協(xié)同”的算力基礎(chǔ)設(shè)施體系。
破解行業(yè)長期痛點 持續(xù)拓展應(yīng)用領(lǐng)域
當(dāng)前,存算分離技術(shù)在核心介質(zhì)、網(wǎng)絡(luò)傳輸、調(diào)度算法等領(lǐng)域?qū)崿F(xiàn)多項關(guān)鍵突破,推動技術(shù)從實驗室走向規(guī)?;逃谩?/p>
在技術(shù)層面,存算分離領(lǐng)域最顯著的突破是擺脫對專用硬件的依賴,通過全棧軟件優(yōu)化實現(xiàn)通用硬件的高性能適配,破解長期以來“高性能必高成本”的行業(yè)痛點。
圖片來源:京東云官網(wǎng)
例如,京東云發(fā)布的云海AI存儲解決方案,通過軟件棧深度調(diào)優(yōu)、支持超低冗余EC存儲、支持全場景統(tǒng)一存儲和存算分離技術(shù),而這項存算分離技術(shù)可以將計算和存儲解耦獨立,存算資源獨立調(diào)度,提高資源利用率和系統(tǒng)可靠性的同時,降低存儲成本。
據(jù)了解,云海AI存儲的存算分離技術(shù)架構(gòu),可以實現(xiàn)低至1.1x副本的冗余EC存儲,節(jié)省整體基礎(chǔ)設(shè)施成本30%以上。
綠算技術(shù)推出的GroundPool 7000系列產(chǎn)品
綠算技術(shù)推出為G3級(Nvidia ICMS)定制的存算分離架構(gòu)平臺GP7000系列產(chǎn)品,該系列產(chǎn)品采用以太網(wǎng)閃存簇(EBOF)設(shè)計,單系統(tǒng)配備24個PCIe 5.0 NVMe U.2盤位,通過雙主控板實現(xiàn)冗余。單機(jī)提供7000萬IOPS、300GB/s帶寬與20μs級延遲,性能較傳統(tǒng)存儲服務(wù)器提升17倍。整機(jī)功耗<900W,每GB/s帶寬功耗僅3.1W,滿足AI工廠的5倍能效目標(biāo),支持BlueField-3/4 DPU與Spectrum-X交換機(jī),通過NVMe-oF/RoCEv2/GDS協(xié)議實現(xiàn)GPU直連。
高速網(wǎng)絡(luò)傳輸技術(shù)的優(yōu)化,是存算分離低延遲落地的核心保障。RDMA(遠(yuǎn)程直接內(nèi)存訪問)網(wǎng)絡(luò)技術(shù)的深度優(yōu)化,消除了數(shù)據(jù)在計算節(jié)點與存儲節(jié)點間的搬運延遲,京東云、華為等企業(yè)的方案均已實現(xiàn)該技術(shù)的成熟應(yīng)用。
在人工智能與大模型訓(xùn)推領(lǐng)域,生成式AI與大模型的規(guī)?;瘧?yīng)用對算力與數(shù)據(jù)訪問效率提出更高要求,存算分離技術(shù)通過“數(shù)據(jù)就地計算、算力動態(tài)調(diào)度”的核心特性,有效解決了傳統(tǒng)架構(gòu)下數(shù)據(jù)頻繁搬運導(dǎo)致的訓(xùn)推效率低、成本高的問題,成為AI基礎(chǔ)設(shè)施的核心支撐技術(shù)。
華為近期發(fā)布的TaurusDB是其新一代云原生數(shù)據(jù)庫,主打“商業(yè)數(shù)據(jù)庫的性能與可靠性,開源數(shù)據(jù)庫的靈活與開放”。其基于自研的DFV分布式存儲,采用計算與存儲分離架構(gòu),完全兼容MySQL生態(tài),讓客戶應(yīng)用平滑遷移,同時通過計算存儲分離機(jī)制,顯著減少資源冗余,提升整體效率。
圖片來源:華為官網(wǎng)
阿里達(dá)摩院基于分布式智能存儲系統(tǒng)構(gòu)建大模型訓(xùn)練數(shù)據(jù)中心,可支撐千億參數(shù)大模型的高效訓(xùn)練。其核心邏輯正是存算分離,通過存儲與計算資源的彈性調(diào)度,避免了傳統(tǒng)架構(gòu)下的資源浪費與數(shù)據(jù)搬運延遲,成為大模型研發(fā)過程中的重要技術(shù)支撐。
在金融科技領(lǐng)域,金融行業(yè)對數(shù)據(jù)安全性、業(yè)務(wù)連續(xù)性及實時性要求更高,存算分離技術(shù)憑借其高可用、彈性擴(kuò)展及合規(guī)適配特性,在銀行、證券等細(xì)分領(lǐng)域得到廣泛落地,有效解決了傳統(tǒng)架構(gòu)下資源利用率低、節(jié)點重建效率低、業(yè)務(wù)抖動等痛點。
微眾銀行作為國內(nèi)首家數(shù)字銀行,2025年基于TDSQL數(shù)據(jù)庫推出存算分離“Diskless架構(gòu)”,應(yīng)對數(shù)據(jù)規(guī)模從不到10PB激增至110PB以上、服務(wù)器數(shù)量增至2萬臺的業(yè)務(wù)挑戰(zhàn)。該架構(gòu)通過服務(wù)器去本地盤化、計算無狀態(tài)化改造,將存儲資源集中為遠(yuǎn)程存儲池,計算節(jié)點僅保留CPU與內(nèi)存,實現(xiàn)資源彈性分配。
京東云表示,某股份制銀行通過部署京東云云海分布式存儲系統(tǒng),快速打通存力卡點,存儲資源利用率提升3倍,綜合成本降低50%。
行業(yè)發(fā)展面臨挑戰(zhàn) “存算分離”前景光明
盡管存算分離在2025年取得顯著進(jìn)展,但行業(yè)發(fā)展仍面臨不少挑戰(zhàn)。記者采訪了解到,技術(shù)層面,超遠(yuǎn)距離存算拉遠(yuǎn)場景下的算效優(yōu)化、多協(xié)議兼容與異構(gòu)資源調(diào)度的復(fù)雜度等問題,仍增加了企業(yè)遷移與運維成本;產(chǎn)業(yè)層面,行業(yè)標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致方案碎片化,跨廠商協(xié)同難度較大,產(chǎn)業(yè)鏈上下游技術(shù)適配成本偏高;安全層面,多節(jié)點協(xié)同場景下的全鏈路防護(hù)仍需加強,跨區(qū)域、跨行業(yè)數(shù)據(jù)傳輸?shù)暮弦?guī)管控難度不小。
不過,行業(yè)對存算分離的未來充滿信心。綠算技術(shù)預(yù)測,2026—2030年,存算分離將進(jìn)入技術(shù)深度融合、產(chǎn)業(yè)生態(tài)成熟、應(yīng)用場景泛化的新階段。技術(shù)上,存算分離將與存算一體、云邊協(xié)同等技術(shù)深度融合,CXL、AI WAN等技術(shù)的持續(xù)迭代將進(jìn)一步優(yōu)化遠(yuǎn)距離存算協(xié)同效能;產(chǎn)業(yè)上,行業(yè)標(biāo)準(zhǔn)將逐步統(tǒng)一,跨廠商協(xié)同成本將顯著降低;應(yīng)用上,存算分離將從互聯(lián)網(wǎng)、金融向醫(yī)療、教育、工業(yè)制造等傳統(tǒng)行業(yè)深度滲透;安全上,AI驅(qū)動的智能防護(hù)技術(shù)將廣泛應(yīng)用,推動數(shù)據(jù)要素安全流通。
隨著技術(shù)創(chuàng)新的持續(xù)加碼與生態(tài)體系的不斷完善,存算分離將成為未來數(shù)字基礎(chǔ)設(shè)施的核心架構(gòu)模式,為全球數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展注入新動力,推動人工智能、大數(shù)據(jù)等新興技術(shù)規(guī)?;瘧?yīng)用。
- QQ:61149512
