股價飆漲市值逼近蘋果...
分類: 最新資訊
短信詞典
編輯 : 短信大全
發布 : 03-10
閱讀 :166
當地時間周四美股收盤,英偉達股價創歷史新高,市值超2.3萬億美元,3月8日盤前又漲超3%,直逼蘋果。近段時間,背靠生成式AI對GPU算力的大量需求,英偉達股價幾乎一路飆漲,多次創歷史新高。但水面之下,對英偉達的挑戰從來不止,一些變化正在發生。被視為OpenAI最大競爭對手的Anthropic近日發布Craude3模型,其最高版本在多項基準測試中性能超過GPT-4。鮮少目光會注意到,Anthropic背后站著亞馬遜,獲亞馬遜投資后Anthropic用了其自研AI芯片Trainium和Inferentia訓練和部署。谷歌等巨頭也在發力自研AI芯片。引起波瀾的另一個事件是,不久前AI芯片初創公司Groq宣稱其LPU(語言處理器)推理性能是英偉達GPU的10倍,成本僅為其十分之一。一名AI創業者試用Groq開放的產品后向記者感嘆“每秒520個token(文本單元),非常驚艷”。該芯片采用存算一體(近存計算)架構,不完全等同于傳統GPU的馮·諾依曼架構。受該芯片推出影響,一名近期獲得融資的國內存算一體企業負責人也告訴記者,業界對這種針對AI的新架構芯片關注度明顯上升了。芯片架構創新和AI巨頭自研的動力,構成挑戰英偉達的兩股暗流。談及顛覆或許為時尚早,但多股利益糾纏下,挑戰不會停止。Groq的架構“革命”2016年,英偉達CEO黃仁勛將第一臺DGX-1超級計算機交給OpenAI,這臺超級計算機集成了8塊P100芯片,將OpenAI一年的訓練時間壓縮到一個月。這是GPU推動大模型成型的絕佳案例。此前大模型猛然涌現時,布局高性能計算并搭建CUDA軟件生態多年的英偉達伸手接住風口,憑通用性和完善軟件生態成為AI芯片最大贏家。但談及其芯片架構是否最適合AI運算,答案或許并不是。以英偉達為代表的主流GPU依賴高制程帶來性能提升,但可見的是,摩爾定律逼近極限,制造更高制程芯片的成本上升,計算、存儲分離的馮·諾依曼架構芯片還面臨內存墻和功耗墻,存儲器單元和處理單元之間需要數據傳輸,存儲帶寬制約了計算系統有效帶寬。記者此前參加的行業會議上,有從業者統計了20年間存儲器和處理器性能增長情況發現,兩者的鴻溝以每年50%的速率擴大,比起算力增長,數據搬運能力增長速度慢更制約大模型發展。業界已在探討如何避開馮·諾伊曼架構弊端。既然存儲和處理單元數據傳輸存在損耗,那就縮短兩者之間的距離,英偉達的方法是采用DRAM(動態隨機存取存儲器)堆疊而成的HBM(高帶寬內存)并與GPU一起封裝,使存儲和計算單元更近,增加存儲密度的同時減少傳輸損耗,提升帶寬,這正是SK海力士等存儲巨頭的著力方向,但這種方案還受HBM供應緊缺限制且依賴臺積電等先進封裝。要解決內存墻還有一種方法,即改變馮·諾依曼架構,轉而采用存算一體架構,將計算單元和存儲單元合二為一,這種新架構可用于GPU、LPU等多類芯片。Groq的LPU推理芯片是向存算一體架構靠近的方案,它還改變了芯片產品模式,采用SRAM(靜態隨機存取存儲器)而不用HBM,放大SRAM高存取速度的優勢,在芯片制程14nm的情況下,使大模型生成速度近500token/秒,超過GPU驅動的GPT-3.5的40token/秒。“以英偉達H100為例,里面也有一個SRAM,從HBM進來的數據還要到SRAM里走一趟,帶寬大概3.25Tb/秒。Groq這款芯片相當于不再單獨接一個HBM,內部帶寬可以達80Tb/秒,相比GPU HBM放大了近30倍。”千芯科技董事長陳巍告訴第一財經記者,Groq團隊從谷歌TPU(張量處理單元)團隊出來,結合了原來的TPU架構思路、近存計算和數據流架構,在集群計算中表現出比較好的性價比。這款芯片推出后,以前阿里技術副總裁賈揚清為代表的部分人士根據Groq LPU較低的內存容量與英偉達H100對比,認為同等吞吐量情況下Groq LPU的硬件成本和能耗高于H100。陳巍聚焦平均計算成本,量化計算后則發現Groq LPU服務器每token/s、每TOPS BOM模組/計算卡成本均低于英偉達H100,這還是在Groq LPU制程遠不及5nm英偉達H100的情況下。陳巍告訴記者,Groq LPU采用的已是近存計算中較成熟的架構,北美在2019年、2020年就陸續有可替代GPGPU的新架構出來的消息,Groq這顆芯片推出基本在預期內。一般而言,認為存算一體架構算力可領先同等工藝邏輯芯片或GPU 4代,12nm或16nm存算一體芯片大約可達7nm或5nm傳統架構GPU的算力。未來存算一體與現有GPU技術融合是一個發展方向,或對現有傳統GPU形成替代。國內針對AI需求也在布局存算一體架構,記者了解到,千芯科技相關芯片通過互聯網公司內測并在跑大模型,相關企業還包括億鑄科技、阿里達摩院、知存科技、蘋芯科技、后摩智能等,這些企業聚焦云端、車端或其他邊緣場景。在Groq采用的SRAM外,業界也在探索ReRAM等密度更高的存儲介質方案。一些海外巨頭則嘗試入場布局存算一體。去年9月,美國AI芯片初創公司D-Matrix獲1.1億美元B輪融資,微軟和三星出現在投資方名單中,微軟還承諾D-Matrix今年推出芯片時評估該芯片供自身使用。另一家在開發數字存內計算芯片的AI創業企業Rain AI此前被OpenAI CEO薩姆·阿爾特曼(Sam Altman)投資100萬美元,2019年,OpenAI便與其簽署意向書,計劃斥資5100萬美元購買Rain AI的AI芯片。硅谷巨頭發力“受益于英偉達,也受制于英偉達”可能是硅谷巨頭們過去一年追逐大模型時的寫照。在AI芯片市場處于領先地位的同時,英偉達可用于大模型訓練推理的GPU產能一度受限且并不便宜。Meta創始人扎克伯格今年初提到,到今年年底,公司計算基礎設施將包括35萬張H100顯卡。Raymond James分析師此前表示,英偉達H100售價2.5萬~3萬美元。若按每張H100售價2.5萬美元計算,Meta這批顯卡價格將達數十億美元。薩姆·阿爾特曼則多次提及AI芯片供需問題,近期表示全球需要的人工智能基礎設施包括晶圓廠產能、能源等比目前人們規劃的更多。英偉達之外,其他廠商近期傳出更多造芯消息。今年2月回應OpenAI7萬億美元造芯計劃傳聞時,薩姆·阿爾特曼稱“我們認為世界將需要更多AI芯片。AI芯片需全球大量投入,超出我們想象”。有消息也稱軟銀集團創始人孫正義正計劃籌集1000億美元資金來資助一家芯片企業。硅谷科技巨頭更早起步。英偉達老對手AMD在GPU領域追趕。亞馬遜有用于AI訓練的定制芯片Trainium和AI推理芯片Inferentia,去年Meta發布了第一代AI推理定制芯片MTIA v1,谷歌則于2017年就推出了TPU,在此基礎上構建AI產品。有消息稱,谷歌90%以上AI訓練工作都使用TPU,Meta也有計劃在數據中心部署自己的AI芯片,減少對英偉達芯片的依賴。英偉達基于GPU構建的CUDA軟件生態是其護城河,但單論一些硬件性能,英偉達GPU并非不可能超越,多家硅谷巨頭廠商繞開GPU領域后已在探索不同路徑。上海交通大學計算機科學與工程系教授梁曉峣在一場行業論壇中提到,奠定了英偉達AI時代算力基座的V100采用了Tensor Core單元,通過4×4矩陣塊運算,而有廠商用了更大矩陣塊運算達到更高效率和算力,谷歌TPU和特斯拉FSD芯片則用了脈動陣列,使芯片更高效。谷歌TPU、Meta的MTIA v1和Groq LPU均屬于ASIC(專用集成電路)。據記者了解,GPU作為處理器通用性和靈活性較強,但硬件可編程性較弱,ASIC則將算法固定在硬件上,靈活性較差但理論上能耗表現和性能可高于GPU。除以近存計算克服內存帶寬瓶頸,Groq官網還提到,其LPU還旨在克服計算密度的瓶頸,對大語言模型而言,LPU計算能力大于GPU和CPU。這些ASIC實際表現如何?PyTorch是可利用英偉達CUDA加速GPU計算的深度學習框架。一名使用谷歌TPU和英偉達GPU的研究人員告訴記者,TPU使用的則是JAX框架, JAX本身的軟件開源生態還是比PyTorch差,一些PyTorch已實現的功能在JAX上還要實現一遍。當正常運算時,機器規模不大的情況下,英偉達GPU與谷歌TPU的效果差別不太大,但在機器規模增大后,TPU的優勢凸顯,更簡潔高效,不需額外做太多工程優化。面對有先發優勢的英偉達,遷移也是其他AI芯片廠商面臨的挑戰。大模型在其GPU上跑后,若要遷移至其他AI芯片上需要遷移成本,但其他廠商也并非毫無辦法。以上研究人員表示,用Pythorch寫的只適用于CUDA的代碼,此前難以遷移,但PyThorch1.3開始提供支持,通過Pythorch XLA編譯器能較快適配到TPU。這意味著,在英偉達GPU上跑的大模型若要遷移至TPU,不需重寫所有代碼。但目前限制是,經遷移的代碼在大規模集群訓練時可能出現一些問題。在打破英偉達軟件優勢、讓更多AI芯片廠商入場競爭的路上,OpenAI也在努力。OpenAI于2021就發布了開源的Triton1.0,其類似Python,旨在讓沒有CUDA經驗的研究人員能高效編寫GPU代碼。去年年底AMD發布會上,OpenAI宣布Triton從接下來的3.0版本開始支持MI300等AMD生態。股價飆升一定程度上說明市場對英偉達仍舊看好,但競爭不會停止,望向未來,AI芯片仍具有很多可能性。