123,123,123

首頁家居家電手機(jī)數(shù)碼 IT互聯(lián)網(wǎng)電商零售汽車出行游戲娛樂半導(dǎo)體新基建酷品評測

2024-02-22 09:45:29

來源：中國電子報、電子信息產(chǎn)業(yè)網(wǎng) 王信豪??

2月20日晚，就在英偉達(dá)財報發(fā)布前夕，AI芯片初創(chuàng)公司Groq在社交媒體上引發(fā)了廣泛討論。Groq宣稱其LPU（語言處理器）的推理性能是英偉達(dá)GPU的10倍，而成本僅為其十分之一。

英偉達(dá)作為人工智能浪潮下的頭部企業(yè)，近年來不乏“挑戰(zhàn)者”發(fā)起沖擊，那么此次LPU的表現(xiàn)如何？

TSP+SRAM的新路徑

2月19日，Groq向用戶開放了產(chǎn)品體驗入口，其產(chǎn)品并非大模型，而類似于大模型加速接口。經(jīng)由Groq加速推理的開源大模型帶給人最直觀的感受便是“快”。

根據(jù)記者測試，Groq的推理性能達(dá)到了每秒270個Token左右，網(wǎng)友測試每秒最高可達(dá)500Token，這個速度在ArtificialAnalysis.ai的測試中表現(xiàn)也十分突出。

Groq與其他云服務(wù)廠商AI輸出Token數(shù)對比（圖片來源：ArtificialAnalysis.ai）

LPU在LLM和生成式AI上的表現(xiàn)為何快于GPU？

Groq表示，LPU旨在克服LLM的兩個瓶頸：計算密度和內(nèi)存帶寬。就LLM而言，LPU的計算能力強(qiáng)于GPU和CPU，這減少了每個單詞的計算時間，從而可以更快地生成文本序列。此外，與GPU相比，消除外部內(nèi)存瓶頸使LPU能夠在LLM上提供更好的性能。

在架構(gòu)方面，Groq使用了TSP（張量流處理）來加速人工智能、機(jī)器學(xué)習(xí)和高性能計算中的復(fù)雜工作負(fù)載。根據(jù)Groq公開技術(shù)資料表示，TSP是一種功能切片的微架構(gòu)，芯片上具有諸多計算模式被軟件預(yù)先定義好的功能片，其與數(shù)據(jù)流的關(guān)系如同工廠的流水線。當(dāng)數(shù)據(jù)經(jīng)過切片時，每個功能單元可以選擇性地截取所需數(shù)據(jù)并獲取計算結(jié)果，并將結(jié)果傳遞回數(shù)據(jù)流，原理類似于裝配線操作員（功能片）和傳送帶（數(shù)據(jù)流）——Groq公司首席執(zhí)行官Jonathan Ross比喻道。

RISC架構(gòu)（左）和TSP架構(gòu)（右）的簡要區(qū)別（圖片來源：Groq）

TSP的源頭是谷歌研發(fā)的TPU（張量處理器），值得一提的是，Ross就曾是谷歌TPU研發(fā)團(tuán)隊成員之一。

在存儲性能方面，LPU另辟蹊徑，有別于傳統(tǒng)算力芯片對于SK海力士等存儲廠商所產(chǎn)HBM（高帶寬存儲）的依賴，轉(zhuǎn)而使用了易失性存儲器SRAM，這也省去了將HBM置于芯片時對臺積電COWOS封裝技術(shù)的需求。SRAM通常用于CPU的高速緩存，由于不需要刷新電路來保持?jǐn)?shù)據(jù)，因此可提供高帶寬和低延遲。

可以說，在張量處理器上的技術(shù)積累加上別樣的存儲器選擇，共同造就了這個推理的效率“怪獸”。

實現(xiàn)落地仍有阻礙

盡管在Groq官方口徑中，以“快”著稱的推理性能確實優(yōu)于大模型普遍生成內(nèi)容所使用的GPU，但是從實驗室數(shù)據(jù)到真正流入市場參與競爭，還有許多問題需要解決。

首先，LPU在市場最關(guān)心的成本問題上眾說紛紜。據(jù)Groq首席執(zhí)行官Jonathan Ross所說，在大模型推理場景中，Groq LPU芯片的速度比英偉達(dá)GPU快10倍，但價格和耗電量都僅為后者的十分之一。

看似極高的性價比，實際情況還有待推敲。原阿里技術(shù)副總裁賈揚清在社交媒體上算了一筆賬，因LPU的內(nèi)存僅有230MB，在忽略推理時內(nèi)存損耗的情況下想運行LLaMA2-70b這樣的大語言模型可能需要572張LPU，總購卡成本高達(dá)1144萬美元（按單卡標(biāo)價2萬美元計算）。相比之下，8張英偉達(dá)H100的系統(tǒng)在性能上與Groq系統(tǒng)相當(dāng)，但硬件成本僅為30萬美元。

其次是Groq LPU的適用范圍能否跟上AI應(yīng)用的發(fā)展速度還是未知數(shù)。隨著OpenAI在2月初發(fā)布AI視頻生成平臺Sora，生成式人工智能走向新的階段。LPU雖然能實現(xiàn)對Token這一單元的快速處理，但是面對Sora的最小計算單元Patch，其處理效果如何還未可知。有觀點認(rèn)為，LPU在架構(gòu)上有所創(chuàng)新，但是僅針對特定算法、特定數(shù)據(jù)結(jié)構(gòu)來設(shè)計芯片，在未來頻繁改變的AI發(fā)展節(jié)奏中可能會“曇花一現(xiàn)”。

目前Groq能夠提供兩個開源大模型的推理加速服務(wù)（圖片來源：Groq）

再回到“挑戰(zhàn)英偉達(dá)”的話題上，Groq所展現(xiàn)出來的解決方案背后是通用芯片與專用芯片的路徑分歧。Groq芯片專注于推理，從測試結(jié)果上看能夠達(dá)到令人滿意的“秒回”效果，但是這要依賴對大模型的前置訓(xùn)練環(huán)節(jié)，換言之，LPU的應(yīng)用場景搭建，需以至少一個完成且開源的大模型為前提。

英偉達(dá)作為GPGPU（通用GPU）的頭部生產(chǎn)企業(yè)，其A100和H100能夠覆蓋大模型訓(xùn)練和推理的全部流程，而下一代芯片H200在H100的基礎(chǔ)上將存儲器HBM進(jìn)行了一次升級，為的也是提升芯片在推理環(huán)節(jié)中的效率。在擁有牢固開發(fā)者生態(tài)的英偉達(dá)眼中，強(qiáng)化推理能力也是鞏固自身通用GPU市占率的手段。

英偉達(dá)的H200著重提升推理能力（圖片來源：英偉達(dá)）

目前看來，英偉達(dá)GPU的交付周期與全球云服務(wù)廠商的算力缺口仍存在一定不匹配，英偉達(dá)正在積極解決這一問題，與此同時，Groq的LPU能否分得一口蛋糕，還需等待大規(guī)模流片之后再看市場反響。

2023年8月14日，Groq宣布三星電子將為自己生產(chǎn)4nm芯片，首批LPU將于2024年下半年量產(chǎn)。Ross表示，在2年后Groq能夠部署100萬臺LPU。

原創(chuàng)文章

每個設(shè)備都智能，為何生活更麻煩？

從滾筒活水洗地機(jī)市場“碾壓式領(lǐng)先”，看科沃斯的“開辟式創(chuàng)新”

徠芬也做洗地機(jī)，“攪局者”還是“長跑者”？

大盤下滑15.4%、低價失效、高端突圍，2025投影市場呈現(xiàn)三大特征

遲到一年后，三星三折疊手機(jī)“殺到”，和華為有何不同？

從幕后到臺前，彩電代工巨頭康冠推自有品牌電視，意欲何為？

漲價潮要來？美博提價5%，空調(diào)業(yè)或借銅價上漲暫停價格戰(zhàn)

2025年電視出貨量或低至3300萬臺，大品牌反而迎“收割”機(jī)會？