IT之家7月24日消息,埃隆?馬斯克的孟菲斯超級計算集群(Memphis Supercluster)已上線,據馬斯克介紹稱,該集群在單個 RDMA fabric 上使用 10 萬張液冷 H100,是“世界上最強大的 AI 訓練集群”。
如此龐大的算力自然需要驚人的電力供應,每個 H100 GPU 至少消耗 700 瓦電力,這意味著整個數據中心同時運行需要超過 70 兆瓦的電力,這還不包括其他服務器、網絡和冷卻設備的耗電量。令人驚訝的是,由于與當地電網的供電協議尚未敲定,馬斯克目前使用 14 臺大型移動發(fā)電機為這個巨型設施供電。
AI 和半導體分析師 Dylan Patel 最初在社交媒體上表示,由于電力限制,馬斯克的孟菲斯超級計算集群可能無法運行。他指出,目前僅從電網抽取了 7 兆瓦電力,只能支持約 4000 個 GPU 運行。田納西河谷管理局(TVA)將在 8 月 1 日之前向該設施提供 50 兆瓦電力,前提是 xAI 能簽署相關協議。Patel 還觀察到,xAI 場地的 150 兆瓦變電站仍在建設中,預計將于 2024 年第四季度完工。
然而,通過衛(wèi)星圖像分析,Patel 很快發(fā)推文稱他發(fā)現了馬斯克的解決辦法 —— 使用 14 臺 VoltaGrid 移動發(fā)電機連接到看起來像四個移動變電站的設備。
每臺半掛車大小的發(fā)電機可提供 2.5 兆瓦電力,14 臺總共能提供驚人的 35 兆瓦電力。加上從電網獲得的 8 兆瓦電力,總共為 43 兆瓦,足以以有限功率運行 3.2 萬個 H100 GPU。
如果田納西河谷管理局在 8 月初為其提供所需的 50 兆瓦電力,馬斯克將有足夠的電力同時運行 6.4 萬個 GPU。Patel 表示,運行 10 萬個 GPU 需要 155 兆瓦電力,但 xAI 需要變電站才能達到這個水平。因此,要么變電站提前完工,要么馬斯克將部署更多移動發(fā)電機來滿足電力需求。
巨大的電力消耗及其對全球變暖的影響是目前 AI 數據中心面臨的主要問題。僅 2023 年售出的所有數據中心 GPU 的耗電量就超過了 130 萬個普通美國家庭耗電量的總和,給電網帶來了巨大壓力。而且,僅僅建設更多的發(fā)電廠并不能滿足數據中心的需求,還需要建設高壓輸電線路、變電站等額外基礎設施,才能將電力從發(fā)電廠輸送到服務器。
除了建設 AI 計算所需電廠的時間和成本外,還必須考慮溫室氣體排放。雖然馬斯克在孟菲斯超級計算集群部署的移動發(fā)電機使用天然氣作為燃料(比煤炭或石油更清潔),但在運行過程中仍然會向大氣中排放碳。
IT之家注意到,谷歌最近透露,由于數據中心能源需求,其碳足跡自 2019 年以來增長了 48%。因此可以預見,除非馬斯克轉向更清潔的能源生產方式,否則 xAI 也將面臨同樣的問題。
馬斯克正全力推動 xAI 成為 AI 開發(fā)領域的領跑者,并為此不惜一切手段。希望使用移動發(fā)電機只是暫時的解決方案,孟菲斯超級計算機集群需要過渡到更清潔的能源,而田納西河谷管理局可以提供這種能源。由于后者使用核能、水電和化石燃料發(fā)電的組合,如果 xAI 從其采購電力而不是依賴僅使用天然氣的移動發(fā)電機,其碳足跡會更小。
評論