英偉達(dá)殺入光刻領(lǐng)域,DPU和GPU重磅更新,首次詳談云服務(wù)!
在前段時間的GTC演講中,英偉達(dá)CEO宣布了一系列的重磅芯品,當(dāng)中不但包括了為中國專門準(zhǔn)備的,基于H100改版而來的H800芯片。同時,公司還宣布了為生成式AI而準(zhǔn)備的產(chǎn)品。
在這次演講中,黃仁勛還帶來了加速2nm設(shè)計的計算光刻等一系列產(chǎn)品,現(xiàn)在整理如下,與大家分享。
將旗艦 H100 調(diào)整為H800,出口到中國
據(jù)路透社報道,主導(dǎo)人工智能芯片市場的美國半導(dǎo)體設(shè)計公司Nvidia 已將其旗艦產(chǎn)品修改為可以合法出口到中國的版本。
美國監(jiān)管機構(gòu)去年制定了規(guī)則,禁止Nvidia 向中國客戶銷售其兩款最先進的芯片,即 A100 和更新的 H100。此類芯片對于開發(fā)生成式人工智能技術(shù)(如 OpenAI 的 ChatGPT 和類似產(chǎn)品)至關(guān)重要。
路透社在 11 月報道稱,Nvidia設(shè)計了一款名為 A800 的芯片,該芯片降低了 A100 的某些功能,使 A800 可以合法出口到中國。
周二,該公司證實它已經(jīng)開發(fā)出類似的 H100 芯片的中國出口版本。阿里巴巴集團控股、百度公司和騰訊控股等中國科技公司的云計算部門正在使用這款名為 H800 的新芯片,英偉達(dá)發(fā)言人說。
美國監(jiān)管機構(gòu)去年秋天實施了規(guī)則,以減緩中國在半導(dǎo)體和人工智能等關(guān)鍵技術(shù)領(lǐng)域的發(fā)展。
圍繞人工智能芯片的規(guī)則強加了一項測試,禁止那些具有強大計算能力和高芯片到芯片數(shù)據(jù)傳輸率的芯片。在使用大量數(shù)據(jù)訓(xùn)練人工智能模型時,傳輸速度非常重要,因為較慢的傳輸速度意味著更多的訓(xùn)練時間。
中國一位芯片行業(yè)消息人士告訴路透社,H800 主要將芯片到芯片的數(shù)據(jù)傳輸速率降低到旗艦 H100 速率的一半左右。
Nvidia 發(fā)言人拒絕透露面向中國的 H800 與 H100 有何不同,只是“我們的 800 系列產(chǎn)品完全符合出口管制法規(guī)”。
突破計算光刻,為2nm芯片制造奠定基礎(chǔ)
在英偉達(dá)這次GTC大會上,下手ASML、TSMC 和 Synopsys突破計算光刻,助力行業(yè)跨越物理極限是另一個值得關(guān)注的亮點。
NVIDIA 表示,將加速計算帶入計算光刻領(lǐng)域,使 ASML、臺積電和 Synopsys 等半導(dǎo)體領(lǐng)導(dǎo)者能夠加速下一代芯片的設(shè)計和制造,正如當(dāng)前的生產(chǎn)流程已接近物理學(xué)的極限一樣使成為可能。
英偉達(dá)在新聞稿中指出,用于計算光刻的全新 NVIDIA cuLitho 軟件庫被世界領(lǐng)先的晶圓代工廠臺積電和電子設(shè)計自動化領(lǐng)導(dǎo)者Synopsys集成到其最新一代 NVIDIA Hopper? 架構(gòu) GPU 的軟件、制造流程和系統(tǒng)中。設(shè)備制造商 ASML 在 GPU 和 cuLitho 方面與 NVIDIA 密切合作,并計劃將對 GPU 的支持集成到其所有計算光刻軟件產(chǎn)品中。
這一進步將使芯片具有比現(xiàn)在更細(xì)的晶體管和電線,同時加快上市時間并提高 24/7 全天候運行以驅(qū)動制造過程的大型數(shù)據(jù)中心的能源效率。
“芯片行業(yè)是世界上幾乎所有其他行業(yè)的基礎(chǔ),”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示?!半S著光刻技術(shù)達(dá)到物理極限,NVIDIA 推出 cuLitho 并與我們的合作伙伴 TSMC、ASML 和 Synopsys 合作,使晶圓廠能夠提高產(chǎn)量、減少碳足跡并為 2nm 及更高工藝奠定基礎(chǔ)?!?/p>
在 GPU 上運行,cuLitho 比當(dāng)前光刻技術(shù)(在硅晶圓上創(chuàng)建圖案的過程)提供高達(dá) 40 倍的性能飛躍,加速目前每年消耗數(shù)百億 CPU 小時的大量計算工作負(fù)載。
它使 500 個 NVIDIA DGX H100 系統(tǒng)能夠完成 40,000 個 CPU 系統(tǒng)的工作,并行運行計算光刻過程的所有部分,有助于減少電力需求和潛在的環(huán)境影響。
在短期內(nèi),使用 cuLitho 的晶圓廠可以幫助每天多生產(chǎn) 3-5 倍的光掩?!酒O(shè)計的模板——使用比當(dāng)前配置低 9 倍的功率。需要兩周才能完成的光掩模現(xiàn)在可以在一夜之間完成。
從長遠(yuǎn)來看,cuLitho 將實現(xiàn)更好的設(shè)計規(guī)則、更高的密度、更高的產(chǎn)量和 AI 驅(qū)動的光刻。
“cuLitho 團隊通過將昂貴的操作轉(zhuǎn)移到 GPU,在加速計算光刻方面取得了令人欽佩的進展,”臺積電首席執(zhí)行官 CC Wei 博士說。“這一發(fā)展為臺積電在芯片制造中更廣泛地部署逆光刻技術(shù)和深度學(xué)習(xí)等光刻解決方案開辟了新的可能性,為半導(dǎo)體規(guī)模的持續(xù)發(fā)展做出了重要貢獻(xiàn)?!?/p>
“我們計劃將對 GPU 的支持集成到我們所有的計算光刻軟件產(chǎn)品中,”ASML 首席執(zhí)行官 Peter Wennink 說?!拔覀兣c NVIDIA 在 GPU 和 cuLitho 方面的合作應(yīng)該會給計算光刻帶來巨大好處,從而給半導(dǎo)體微縮帶來好處。在High NA 極紫外光刻時代尤其如此?!?/p>
Synopsys 董事長兼首席執(zhí)行官 Aart de Geus 表示:“計算光刻,特別是光學(xué)鄰近校正 (OPC),正在突破最先進芯片的計算工作負(fù)載界限。“通過與我們的合作伙伴 NVIDIA 合作,在 cuLitho 平臺上運行 Synopsys OPC 軟件,我們將性能從數(shù)周大幅提升至數(shù)天!我們兩家領(lǐng)先公司的合作將繼續(xù)推動該行業(yè)取得驚人的進步?!?/p>
英偉達(dá)表示,近年來,由于較新節(jié)點中的晶體管數(shù)量更多以及更嚴(yán)格的精度要求,半導(dǎo)體制造中最大工作負(fù)載所需的計算時間成本已超過摩爾定律。未來的節(jié)點需要更詳細(xì)的計算,并非所有這些都可以適用于當(dāng)前平臺提供的可用計算帶寬,從而減緩了半導(dǎo)體創(chuàng)新的步伐。
晶圓廠流程變更通常需要 OPC 修訂,從而造成瓶頸。cuLitho 有助于消除這些瓶頸,并使新穎的解決方案和創(chuàng)新技術(shù)成為可能,例如曲線掩模、High NA EUV 光刻和新技術(shù)節(jié)點所需的亞原子光刻膠建模。
Nvidia 宣布 BlueField-3 GA
Nvidia 今天宣布全面推出其 BlueField-3 數(shù)據(jù)處理單元 (DPU) 以及令人印象深刻的早期部署,包括 Oracle Cloud Infrastructure。BlueField-3 于 2021 年首次描述,現(xiàn)已交付,是 Nvidia 的第三代 DPU,擁有大約 220 億個晶體管。與上一代 BlueField 相比,新的 DPU 支持以太網(wǎng)和 InfiniBand 連接,速度高達(dá)每秒 400 吉比特,計算能力提高 4 倍,加密加速提高 4 倍,存儲處理速度提高 2 倍,內(nèi)存帶寬提高 4 倍?!?/p>
Nvidia 首席執(zhí)行官黃仁勛在 GTC 23 主題演講中表示:“在現(xiàn)代軟件定義的數(shù)據(jù)中心中,執(zhí)行虛擬化、網(wǎng)絡(luò)、存儲和安全性的操作系統(tǒng)會消耗數(shù)據(jù)中心近一半的 CPU 內(nèi)核和相關(guān)功率。數(shù)據(jù)中心必須加速每個工作負(fù)載以回收功率并釋放 CPU 用于創(chuàng)收工作負(fù)載。Nvidia BlueField 卸載并加速了數(shù)據(jù)中心操作系統(tǒng)和基礎(chǔ)設(shè)施軟件?!?/p>
早在 2020 年,Nvidia 就制定了 DPU 戰(zhàn)略,認(rèn)為 CPU 正因諸如 Huang 所引用的內(nèi)務(wù)雜務(wù)而陷入困境。Nvidia 認(rèn)為,DPU 將吸收這些任務(wù),從而釋放 CPU 用于應(yīng)用程序。其他芯片供應(yīng)商——尤其是英特爾和 AMD——似乎同意并已跳入 DPU 市場。
有時被描述為類固醇的智能網(wǎng)卡引起了人們的興趣,但尚未轉(zhuǎn)化為廣泛的銷售。變化現(xiàn)在可能正在發(fā)生。Huang 列舉了“超過 20 個生態(tài)系統(tǒng)合作伙伴”,其中包括現(xiàn)在使用 BlueField 技術(shù)的 Cisco、DDN、Dell EMC 和 Juniper。
在媒體/分析師預(yù)簡報會上,英偉達(dá)網(wǎng)絡(luò)副總裁 Kevin Deierling 表示:“BlueField-3 已全面投入生產(chǎn)并可供使用。它的 Arm 處理器內(nèi)核數(shù)量是 BlueField-2 的兩倍,加速器更多,并且運行工作負(fù)載的速度比我們上一代 DPU 快八倍。BlueField-3 可跨云 HPC、企業(yè)和加速 AI 用例卸載、加速和隔離工作負(fù)載。”
Nvidia 的 DPU 瞄準(zhǔn)超級計算機、數(shù)據(jù)中心和云提供商。在 GTC 上,Nvidia 吹捧了 Oracle 云部署,其中 BlueField-3 是Nvidia更大的 DGX-in-the-Cloud 勝利的一部分。
“正如你所聽到的,我們宣布Oracle Cloud Infrastructure率先運行 DGX Cloud 和 AI 超級計算服務(wù),使企業(yè)能夠立即訪問為生成 AI 訓(xùn)練高級模型所需的基礎(chǔ)設(shè)施和軟件。OCI [還] 選擇了 BlueField-3 以實現(xiàn)更高的性能、效率和安全性。與 BluField-2 相比,BlueField-3 通過從 CPU 卸載數(shù)據(jù)中心基礎(chǔ)設(shè)施任務(wù),將虛擬化實例增加了八倍,從而提供了巨大的性能和效率提升,”Deierling 說。
在官方公告中,英偉達(dá)引用了 OCI 執(zhí)行副總裁 Clay Magouyrk 的話說:“Oracle 云基礎(chǔ)設(shè)施為企業(yè)客戶提供了幾乎無與倫比的人工智能和科學(xué)計算基礎(chǔ)設(shè)施的可訪問性,并具有改變行業(yè)的能力。Nvidia BlueField-3 DPU 是我們提供最先進、可持續(xù)的云基礎(chǔ)設(shè)施和極致性能戰(zhàn)略的關(guān)鍵組成部分?!?/p>
BlueField-3 在 CSP 中的其他勝利包括百度、CoreWeave。京東、微軟 Azure 和騰訊。
Nvidia 還報告稱,BlueField-3 具有“通過DOCA軟件框架”的完全向后兼容性。
DOCA 是 BlueField 的編程工具,DOCA 2.0 是最新版本。Nvidia 一直在穩(wěn)步為其 DPU 產(chǎn)品線添加功能。例如,最近,它加強了內(nèi)聯(lián) GPU 數(shù)據(jù)包處理,“以實施高數(shù)據(jù)率解決方案:數(shù)據(jù)過濾、數(shù)據(jù)放置、網(wǎng)絡(luò)分析、傳感器信號處理等?!?新的 DOCA GPUNetIO 庫可以克服以前 DPDK 解決方案中發(fā)現(xiàn)的一些限制。
按照英偉達(dá)所說,Nvidia 實時 GPU 網(wǎng)絡(luò)數(shù)據(jù)包處理是一種對多個不同應(yīng)用領(lǐng)域有用的技術(shù),包括信號處理、網(wǎng)絡(luò)安全、信息收集和輸入重建。這些應(yīng)用程序的目標(biāo)是實現(xiàn)內(nèi)聯(lián)數(shù)據(jù)包處理管道以在 GPU 內(nèi)存中接收數(shù)據(jù)包(無需通過 CPU 內(nèi)存暫存副本);與一個或多個 CUDA 內(nèi)核并行處理它們;然后運行推理、評估或通過網(wǎng)絡(luò)發(fā)送計算結(jié)果。
推出H100 NVL,用于大模型的內(nèi)存服務(wù)器卡
Anandtech表示,雖然今年的春季 GTC 活動沒有采用 NVIDIA 的任何新 GPU 或 GPU 架構(gòu),但該公司仍在推出基于去年推出的 Hopper 和 Ada Lovelace GPU 的新產(chǎn)品。但在高端市場,該公司今天宣布推出專門針對大型語言模型用戶的新 H100 加速器變體:H100 NVL。
H100 NVL 是NVIDIA H100 PCIe 卡的一個有趣變體,它是時代的標(biāo)志和 NVIDIA 在 AI 領(lǐng)域取得的廣泛成功,其目標(biāo)是一個單一的市場:大型語言模型 (LLM) 部署。有一些東西使這張卡與 NVIDIA 通常的服務(wù)器票價不同——其中最重要的是它的 2 個 H100 PCIe 板已經(jīng)橋接在一起——但最大的收獲是大內(nèi)存容量。組合的雙 GPU 卡提供 188GB 的 HBM3 內(nèi)存——每張卡 94GB——提供比迄今為止任何其他 NVIDIA 部件更多的每個 GPU 內(nèi)存,即使在 H100 系列中也是如此。
驅(qū)動此 SKU 的是一個特定的利基市場:內(nèi)存容量。像 GPT 系列這樣的大型語言模型在許多方面都受到內(nèi)存容量的限制,因為它們甚至?xí)芸焯顫M H100 加速器以保存它們的所有參數(shù)(在最大的 GPT-3 模型的情況下為 175B)。因此,NVIDIA 選擇拼湊出一個新的 H100 SKU,它為每個 GPU 提供的內(nèi)存比他們通常的 H100 部件多一點,后者最高為每個 GPU 80GB。
在封裝的蓋下,我們看到的本質(zhì)上是放置在 PCIe 卡上的GH100 GPU的特殊容器。所有 GH100 GPU 都配備 6 個 HBM 內(nèi)存堆棧(HBM2e 或 HBM3),每個堆棧的容量為 16GB。然而,出于良率原因,NVIDIA 僅在其常規(guī) H100 部件中提供 6 個 HBM 堆棧中的 5 個。因此,雖然每個 GPU 上標(biāo)稱有 96GB 的 VRAM,但常規(guī) SKU 上只有 80GB 可用。
而H100 NVL 是神話般的完全啟用的 SKU,啟用了所有 6 個堆棧。通過打開第 6個HBM 堆棧,NVIDIA 能夠訪問它提供的額外內(nèi)存和額外內(nèi)存帶寬。它將對產(chǎn)量產(chǎn)生一些實質(zhì)性影響——多少是 NVIDIA 嚴(yán)密保守的秘密——但 LLM 市場顯然足夠大,并且愿意為近乎完美的 GH100 封裝支付足夠高的溢價,以使其值得 NVIDIA 光顧。
即便如此,應(yīng)該注意的是,客戶無法訪問每張卡的全部 96GB。相反,在總?cè)萘繛?188GB 的內(nèi)存中,它們每張卡的有效容量為 94GB。在今天的主題演講之前,NVIDIA 沒有在我們的預(yù)簡報中詳細(xì)介紹這個設(shè)計,但我們懷疑這也是出于良率原因,讓 NVIDIA 在禁用 HBM3 內(nèi)存堆棧中的壞單元(或?qū)樱┓矫嬗幸恍┧尚?。最終結(jié)果是新 SKU 為每個 GH100 GPU 提供了 14GB 的內(nèi)存,內(nèi)存增加了 17.5%。同時,該卡的總內(nèi)存帶寬為 7.8TB/秒,單個板的總內(nèi)存帶寬為 3.9TB/秒。
除了內(nèi)存容量增加之外,更大的雙 GPU/雙卡 H100 NVL 中的各個卡在很多方面看起來很像放置在 PCIe 卡上的 H100 的 SXM5 版本。雖然普通的 H100 PCIe 由于使用較慢的 HBM2e 內(nèi)存、較少的活動 SM/張量核心和較低的時鐘速度而受到一些限制,但 NVIDIA 為 H100 NVL 引用的張量核心性能數(shù)據(jù)與 H100 SXM5 完全相同,這表明該卡沒有像普通 PCIe 卡那樣進一步縮減。我們?nèi)栽诘却a(chǎn)品的最終、完整規(guī)格,但假設(shè)這里的所有內(nèi)容都如所呈現(xiàn)的那樣,那么進入 H100 NVL 的 GH100 將代表當(dāng)前可用的最高分檔 GH100。
這里需要強調(diào)復(fù)數(shù)。如前所述,H100 NVL 不是單個 GPU 部件,而是雙 GPU/雙卡部件,它以這種方式呈現(xiàn)給主機系統(tǒng)。硬件本身基于兩個 PCIe 外形規(guī)格的 H100,它們使用三個 NVLink 4 橋接在一起。從物理上講,這實際上與 NVIDIA 現(xiàn)有的 H100 PCIe 設(shè)計完全相同——后者已經(jīng)可以使用 NVLink 橋接器進行配對——所以區(qū)別不在于兩板/四插槽龐然大物的結(jié)構(gòu),而是內(nèi)部芯片的質(zhì)量。換句話說,您今天可以將普通的 H100 PCIe 卡捆綁在一起,但它無法與 H100 NVL 的內(nèi)存帶寬、內(nèi)存容量或張量吞吐量相匹配。
令人驚訝的是,盡管有出色的規(guī)格,但 TDP 幾乎保持不變。H100 NVL 是一個 700W 到 800W 的部件,分解為每塊板 350W 到 400W,其下限與常規(guī) H100 PCIe 的 TDP 相同。在這種情況下,NVIDIA 似乎將兼容性置于峰值性能之上,因為很少有服務(wù)器機箱可以處理超過 350W 的 PCIe 卡(超過 400W 的更少),這意味著 TDP 需要保持穩(wěn)定。不過,考慮到更高的性能數(shù)據(jù)和內(nèi)存帶寬,目前還不清楚 NVIDIA 如何提供額外的性能。Power binning 在這里可以發(fā)揮很大的作用,但也可能是 NVIDIA 為卡提供比平常更高的提升時鐘速度的情況,因為目標(biāo)市場主要關(guān)注張量性能并且不會點亮整個 GPU一次。
否則,鑒于 NVIDIA 對 SXM 部件的普遍偏好,NVIDIA 決定發(fā)布本質(zhì)上最好的 H100 bin 是一個不尋常的選擇,但在 LLM 客戶的需求背景下,這是一個有意義的決定。基于 SXM 的大型 H100 集群可以輕松擴展到 8 個 GPU,但任何兩個 GPU 之間可用的 NVLink 帶寬量因需要通過 NVSwitch 而受到限制。對于只有兩個 GPU 的配置,將一組 PCIe 卡配對要直接得多,固定鏈路保證卡之間的帶寬為 600GB/秒。
但也許比這更重要的是能夠在現(xiàn)有基礎(chǔ)設(shè)施中快速部署 H100 NVL。LLM 客戶無需安裝專門為配對 GPU 而構(gòu)建的 H100 HGX 載板,只需將 H100 NVL 添加到新的服務(wù)器構(gòu)建中,或者作為對現(xiàn)有服務(wù)器構(gòu)建的相對快速升級即可。畢竟,NVIDIA 在這里針對的是一個非常特殊的市場,因此 SXM 的正常優(yōu)勢(以及 NVIDIA 發(fā)揮其集體影響力的能力)可能不適用于此。
總而言之,NVIDIA 宣稱 H100 NVL 提供的 GPT3-175B 推理吞吐量是上一代 HGX A100 的 12 倍(8 個 H100 NVL 對比 8 個 A100)。對于希望盡快為 LLM 工作負(fù)載部署和擴展系統(tǒng)的客戶來說,這肯定很有吸引力。如前所述,H100 NVL 在架構(gòu)特性方面并沒有帶來任何新的東西——這里的大部分性能提升來自 Hopper 架構(gòu)的新變壓器引擎——但 H100 NVL 將作為最快的 PCIe H100 服務(wù)于特定的利基市場選項,以及具有最大 GPU 內(nèi)存池的選項。
總結(jié)一下,根據(jù) NVIDIA 的說法,H100 NVL 卡將于今年下半年開始發(fā)貨。該公司沒有報價,但對于本質(zhì)上是頂級 GH100 的產(chǎn)品,我們預(yù)計它們會獲得最高價格。特別是考慮到 LLM 使用量的激增如何轉(zhuǎn)變?yōu)榉?wù)器 GPU 市場的新淘金熱。
Nvidia 的“云”,服務(wù)起價 37,000 美元
如果你是 Nvidia 的忠實擁護者,請準(zhǔn)備好花大價錢使用它在云端的 AI 工廠。
Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛上個月在談到這家GPU 制造商的季度收益時,提出了 Nvidia DGX Cloud 的計劃,本質(zhì)上是呼吁將公司的 DGX AI 超級計算機硬件和配套軟件——尤其是其廣泛的企業(yè) AI一套軟件——放到公有云平臺上供企業(yè)使用。
我們必須申明,Nvidia 還不夠富有,或者說不夠愚蠢,他們無法構(gòu)建云來與 Amazon Web Services、Microsoft Azure 或 Google Cloud 等公司競爭。但他們足夠聰明,可以利用這些龐大的計算和存儲實用程序為自己謀利,并在它們構(gòu)建的基礎(chǔ)設(shè)施之上銷售服務(wù)賺錢,而基礎(chǔ)設(shè)施又基于自己的組件。
DGX Cloud 的巧妙之處不在于有經(jīng)過認(rèn)證的本地和云堆棧來運行 Nvidia 的 AI 硬件和軟件。您需要向 Nvidia 支付費用,才能以一種 SaaS 模式這樣做——Nvidia 可以向您或云出售構(gòu)建基礎(chǔ)設(shè)施的部件。
就其本身而言,這是使AI 民主化的最新嘗試,將其帶出 HPC 和研究機構(gòu)的領(lǐng)域,并將其置于主流企業(yè)的范圍內(nèi),這些企業(yè)非??释眯屡d技術(shù)可以帶來的業(yè)務(wù)優(yōu)勢遞送。
對于 Nvidia 而言,DGX Cloud 的人工智能即服務(wù)代表著向云優(yōu)先戰(zhàn)略的強烈轉(zhuǎn)變,以及一種理解——與其他組件制造商一樣——它現(xiàn)在既是一家硬件制造商,也是一家軟件公司,而公共云是一個使該軟件易于訪問并且更重要的是將其貨幣化的自然途徑。
對于十多年前將 AI 置于其前進戰(zhàn)略中心、構(gòu)建以 AI 為核心的路線圖的公司而言,這是重要的下一步。Nvidia 在 2016 年推出了 DGX-1,這是其第一臺深度學(xué)習(xí)超級計算機。第四代系統(tǒng)于去年推出。2020 年出現(xiàn)了第一批DGX SuperPOD,一年后 Nvidia 推出了 AI Enterprise,這是一個包含框架、工具和相當(dāng)大劑量的 VMware vSphere 的軟件套件。
AI Enterprise 強調(diào)了軟件對 Nvidia 日益增長的重要性——反映了其他組件制造商的類似趨勢——這家公司現(xiàn)在從事軟件工作的員工多于硬件。
借助 DGX Cloud,Nvidia 現(xiàn)在可以通過另一種方式將所有這些交付給那些希望在其工作流程中利用生成式 AI 工具(例如來自 OpenAI 的廣受歡迎的 ChatGPT)的企業(yè)(通過 Microsoft),但沒有資源在其內(nèi)部擴展基礎(chǔ)設(shè)施數(shù)據(jù)中心來支持它。他們現(xiàn)在可以通過云訪問它,享受它所有的可擴展性和即用即付的好處。
Nvidia 企業(yè)計算副總裁 Manuvir Das 在 GTC 前會議上告訴記者:“多年來,我們一直在與企業(yè)公司合作,創(chuàng)建他們自己的模型來訓(xùn)練他們自己的數(shù)據(jù)?!?“過去幾個月,像 ChatGPT 這樣基于非常非常大的 GPT 模型的服務(wù)越來越受歡迎,每天有數(shù)百萬人使用一個模型。當(dāng)我們與企業(yè)公司合作時,他們中的許多人有興趣使用自己的數(shù)據(jù)為自己的目的創(chuàng)建模型。”
據(jù)最新介紹,租用 GPU 公司包羅萬象的云端 AI 超級計算機的DGX Cloud起價為每個實例每月 36,999 美元。租金包括使用帶有八個 Nvidia H100 或 A100 GPU 和 640GB GPU 內(nèi)存的云計算機。價格包括用于開發(fā) AI 應(yīng)用程序和大型語言模型(如 BioNeMo)的 AI Enterprise 軟件。
“DGX Cloud 有自己的定價模型,因此客戶向 Nvidia 付費,他們可以根據(jù)他們選擇使用它的位置通過任何云市場購買它,但這是一項由 Nvidia 定價的服務(wù),包括所有費用,” Nvidia 企業(yè)計算副總裁 Manuvir Das 在新聞發(fā)布會上說。
DGX Cloud 的起始價格接近 Microsoft Azure 每月收取的 20,000 美元的兩倍,用于滿載的 A100 實例,該實例具有 96 個 CPU 內(nèi)核、900GB 存儲空間和 8 個 A100 GPU 每月。
甲骨文在其 RDMA 超級集群中托管 DGX 云基礎(chǔ)設(shè)施,可擴展到 32,000 個 GPU。微軟將在下個季度推出 DGX Cloud,隨后將推出 Google Cloud。
客戶將不得不為最新的硬件支付額外費用,但軟件庫和工具的集成可能會吸引企業(yè)和數(shù)據(jù)科學(xué)家。
Nvidia 聲稱它為 AI 提供了最好的可用硬件。它的 GPU 是高性能和科學(xué)計算的基石。但是 Nvidia 專有的硬件和軟件就像使用 Apple iPhone 一樣——你得到了最好的硬件,但一旦你被鎖定,就很難脫身,而且在它的生命周期中會花費很多錢。
但為 Nvidia 的 GPU 支付溢價可能會帶來長期利益。例如,Microsoft 正在投資 Nvidia 硬件和軟件,因為它通過 Bing with AI 提供了成本節(jié)約和更大的收入機會。
人工智能工廠的概念是由首席執(zhí)行官黃仁勛提出的,他將數(shù)據(jù)設(shè)想為原材料,工廠將其轉(zhuǎn)化為可用數(shù)據(jù)或復(fù)雜的人工智能模型。Nvidia的硬件和軟件是AI工廠的主要組成部分。
“你只需提供你的工作,指向你的數(shù)據(jù)集,然后點擊開始,所有的編排和下面的一切都在 DGX Cloud 中得到處理。現(xiàn)在,相同的模型可以在托管在各種公共云上的基礎(chǔ)設(shè)施上使用,”Nvidia 企業(yè)計算副總裁 Manuvir Das 在新聞發(fā)布會上說。
Das 說,數(shù)百萬人正在使用 ChatGPT 風(fēng)格的模型,這需要高端人工智能硬件。
DGX Cloud 進一步推動了 Nvidia 將其硬件和軟件作為一套產(chǎn)品銷售的目標(biāo)。Nvidia 正在進軍軟件訂閱業(yè)務(wù),該業(yè)務(wù)的長尾涉及銷售更多硬件,從而產(chǎn)生更多軟件收入。Base Command Platform 軟件界面將允許公司管理和監(jiān)控 DGX 云培訓(xùn)工作負(fù)載。
Oracle Cloud 擁有多達(dá) 512 個 Nvidia GPU 的集群,以及每秒 200 GB 的 RDMA 網(wǎng)絡(luò)。該基礎(chǔ)設(shè)施支持包括 Lustre 在內(nèi)的多個文件系統(tǒng),吞吐量為每秒 2 TB。
Nvidia 還宣布有更多公司采用了其 H100 GPU。Amazon 宣布他們的 EC2“UltraClusters”和 P5 實例將基于 H100。“這些實例可以使用他們的 EFA 技術(shù)擴展到 20,000 個 GPU,”Nvidia 超大規(guī)模和 HPC 計算副總裁 Ian Buck 在新聞發(fā)布會上說。
EFA 技術(shù)是指 Elastic Fabric Adapter,它是由 Nitro 編排的網(wǎng)絡(luò)實現(xiàn),它是一種處理網(wǎng)絡(luò)、安全和數(shù)據(jù)處理的通用定制芯片。
Meta Platforms 已開始在Grand Teton中部署 H100 系統(tǒng),這是社交媒體公司下一代 AI 超級計算機的平臺。
總結(jié)
在開幕的GTC上,英偉達(dá)還帶來了多樣化的產(chǎn)品,例如用于特定推理的的英偉達(dá) L4 GPU。據(jù)報道,這款 GPU 可以提供比 CPU 高 120 倍的人工智能視頻性能。它提供增強的視頻解碼和轉(zhuǎn)碼功能、視頻流、增強現(xiàn)實和生成 AI 視頻。
此外,英偉達(dá)還聯(lián)合客戶打造由 16 個 DGX H100 系統(tǒng)組成,每個系統(tǒng)配備八個 H100 GPU的生成式AI超級計算機Tokyo-1。根據(jù) Nvidia 的 AI 觸發(fā)器數(shù)學(xué)計算,這相當(dāng)于大約一半的 exaflop AI 能力;由于每個 H100(一開始將有 128 個)提供 30 teraflops 的峰值 FP64 功率,因此它應(yīng)該達(dá)到大約 3.84 petaflops 的峰值。
由此可見,黃仁勛正在帶領(lǐng)英偉達(dá)走向一個新階段。