當(dāng)前位置：首頁 >財經(jīng)視點>

揭秘ChatGPT背后天價超算，上萬顆英偉達(dá)A100，燒光微軟數(shù)億美元

來源：IT之家作者:蘇婉蓉發(fā)布時間：2023-03-15 17:14 閱讀量：8633

ChatGPT 背后，是微軟超級昂貴的超級計算機，耗資數(shù)億美元，用了英偉達(dá)數(shù)萬顆芯片。

ChatGPT 能成為如今火遍全球的頂流模型，少不了背后超強的算力。

數(shù)據(jù)顯示，ChatGPT 的總算力消耗約為 3640PF-days。

那么，作為依托的那臺微軟專為 OpenAI 打造的超級計算機，又是如何誕生的呢？

周一，微軟在官博上連發(fā)兩文，親自解密這臺超級昂貴的超級計算機，以及 Azure 的重磅升級 —— 加入成千上萬張英偉達(dá)最強的 H100 顯卡以及更快的 InfiniBand 網(wǎng)絡(luò)互連技術(shù)。

基于此，微軟也官宣了最新的 ND H100 v5 虛擬機，具體規(guī)格如下:

8 個 NVIDIA H100 Tensor Core GPU 通過下一代 NVSwitch 和 NVLink 4.0 互聯(lián)
每個 GPU 有 400 Gb / s 的 NVIDIA Quantum-2 CX7 InfiniBand，每個虛擬機有 3.2Tb / s 的無阻塞胖樹型網(wǎng)絡(luò)
NVSwitch 和 NVLink 4.0 在每個虛擬機的 8 個本地 GPU 之間具有 3.6TB / s 的雙向帶寬
第四代英特爾至強可擴展處理器
PCIE Gen5 到 GPU 互連，每個 GPU 有 64GB / s 帶寬
16 通道 4800MHz DDR5 DIMM

數(shù)億美元撐起來的算力

大約五年前，OpenAI 向微軟提出了一個大膽的想法 —— 建立一個可以永遠(yuǎn)改變?nèi)藱C交互方式的人工智能系統(tǒng)。

為了建立這個系統(tǒng)，OpenAI 需要很多算力 —— 可以真正支撐起超大規(guī)模計算的那種。

但問題是，微軟能做到嗎？

畢竟，當(dāng)時既沒有能滿足 OpenAI 需要的硬件，也無法確定在 Azure 云服務(wù)中構(gòu)建這樣龐大的超級計算機會不會直接把系統(tǒng)搞崩。

隨后，微軟便開啟了一段艱難的摸索。

微軟 Azure 高性能計算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell和微軟戰(zhàn)略合作伙伴關(guān)系高級總監(jiān) Phil Waymouth(右)

為了構(gòu)建支持 OpenAI 項目的超級計算機，它斥資數(shù)億美元，在 Azure 云計算平臺上將幾萬個 Nvidia A100 芯片連接在一起，并改造了服務(wù)器機架。

此外，為了給 OpenAI 量身打造這個超算平臺，微軟十分盡心，一直在密切關(guān)注著 OpenAI 的需求，隨時了解他們在訓(xùn)練 AI 時最關(guān)鍵的需要。

這么一個大工程，成本究竟是多少呢？微軟負(fù)責(zé)云計算和人工智能的執(zhí)行副總裁 Scott Guthrie 不愿透露具體數(shù)目，但他表示，「可能不止」幾億美元。

OpenAI 出的難題

微軟負(fù)責(zé)戰(zhàn)略合作伙伴關(guān)系的高管 Phil Waymouth 指出，OpenAI 訓(xùn)練模型所需要的云計算基礎(chǔ)設(shè)施規(guī)模，是業(yè)內(nèi)前所未有的。

呈指數(shù)級增長的網(wǎng)絡(luò) GPU 集群規(guī)模，超過了業(yè)內(nèi)任何人試圖構(gòu)建的程度。

微軟之所以下定決心與 OpenAI 合作，是因為堅信，這種前所未有的基礎(chǔ)設(shè)施規(guī)模將改變歷史，造出全新的 AI，和全新的編程平臺，為客戶提供切實符合他們利益的產(chǎn)品和服務(wù)。

現(xiàn)在看來，這幾億美元顯然沒白花 —— 寶押對了。

在這臺超算上，OpenAI 能夠訓(xùn)練的模型越來越強大，并且解鎖了 AI 工具令人驚嘆的功能，幾乎開啟人類第四次工業(yè)革命的 ChatGPT，由此誕生。

非常滿意的微軟，在 1 月初又向 OpenAI 狂砸 100 億美元。

可以說，微軟突破 AI 超算界限的雄心，已經(jīng)得到了回報。而這背后體現(xiàn)的，是從實驗室研究，到 AI 產(chǎn)業(yè)化的轉(zhuǎn)變。

目前，微軟的辦公軟件帝國已經(jīng)初具規(guī)模。

ChatGPT 版必應(yīng)，可以幫我們搜索假期安排；Viva Sales 中的聊天機器人可以幫營銷人員寫郵件；GitHub Copilot 可以幫開發(fā)者續(xù)寫代碼；Azure OpenAI 服務(wù)可以讓我們訪問 OpenAI 的大語言模型，還能訪問 Azure 的企業(yè)級功能。

和英偉達(dá)聯(lián)手

其實，在去年 11 月，微軟就曾官宣，要與 Nvidia 聯(lián)手構(gòu)建「世界上最強大的 AI 超級計算機之一」，來處理訓(xùn)練和擴展 AI 所需的巨大計算負(fù)載。

這臺超級計算機基于微軟的 Azure 云基礎(chǔ)設(shè)施，使用了數(shù)以萬計個 Nvidia H100 和 A100Tensor Core GPU，及其 Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺。

Nvidia 在一份聲明中表示，這臺超級計算機可用于研究和加速 DALL-E 和 Stable Diffusion 等生成式 AI 模型。

隨著 AI 研究人員開始使用更強大的 GPU 來處理更復(fù)雜的 AI 工作負(fù)載，他們看到了 AI 模型更大的潛力，這些模型可以很好地理解細(xì)微差別，從而能夠同時處理許多不同的語言任務(wù)。

簡單來說，模型越大，你擁有的數(shù)據(jù)越多，你能訓(xùn)練的時間越長，模型的準(zhǔn)確性就越好。

但是這些更大的模型很快就會到達(dá)現(xiàn)有計算資源的邊界。而微軟明白，OpenAI 需要的超級計算機是什么樣子，需要多大的規(guī)模。

這顯然不是說，單純地購買一大堆 GPU 并將它們連接在一起之后，就可以開始協(xié)同工作的東西。

微軟 Azure 高性能計算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 表示:「我們需要讓更大的模型訓(xùn)練更長的時間，這意味著你不僅需要擁有最大的基礎(chǔ)設(shè)施，你還必須讓它長期可靠地運行?！?/p>

Azure 全球基礎(chǔ)設(shè)施總監(jiān) Alistair Speirs 表示，微軟必須確保它能夠冷卻所有這些機器和芯片。比如，在較涼爽的氣候下使用外部空氣，在炎熱的氣候下使用高科技蒸發(fā)冷卻器等。

此外，由于所有的機器都是同時啟動的，所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時打開微波爐、烤面包機和吸塵器時可能會發(fā)生的情況，只不過是數(shù)據(jù)中心的版本。

大規(guī)模 AI 訓(xùn)練

完成這些突破，關(guān)鍵在哪里？

難題就是，如何構(gòu)建、操作和維護數(shù)萬個在高吞吐量、低延遲 InfiniBand 網(wǎng)絡(luò)上互連的共置 GPU。

這個規(guī)模，已經(jīng)遠(yuǎn)遠(yuǎn)超出了 GPU 和網(wǎng)絡(luò)設(shè)備供應(yīng)商測試的范圍，完全是一片未知的領(lǐng)域。沒有任何人知道，在這種規(guī)模下，硬件會不會崩。

微軟 Azure 高性能計算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 解釋道，在 LLM 的訓(xùn)練過程中，涉及到的大規(guī)模計算通常會被劃分到一個集群中的數(shù)千個 GPU 上。

在被稱為 allreduce 的階段，GPU 之間會互相交換它們所做工作的信息。此時就需要通過 InfiniBand 網(wǎng)絡(luò)進行加速，從而讓 GPU 在下一塊計算開始之前完成。

Nidhi Chappell 表示，由于這些工作跨越了數(shù)千個 GPU，因此除了要確?；A(chǔ)設(shè)施的可靠外，還需要大量很多系統(tǒng)級優(yōu)化才能實現(xiàn)最佳的性能，而這是經(jīng)過許多代人的經(jīng)驗總結(jié)出來的。

所謂系統(tǒng)級優(yōu)化，其中就包括能夠有效利用 GPU 和網(wǎng)絡(luò)設(shè)備的軟件。

在過去的幾年里，微軟已經(jīng)開發(fā)出了這種技術(shù)，在使訓(xùn)練具有幾十萬億個參數(shù)的模型的能力得到增長的同時，降低了訓(xùn)練和在生產(chǎn)中提供這些模型的資源要求和時間。

Waymouth 指出，微軟和合作伙伴也一直在逐步增加 GPU 集群的容量，發(fā)展 InfiniBand 網(wǎng)絡(luò)，看看他們能在多大程度上推動保持 GPU 集群運行所需的數(shù)據(jù)中心基礎(chǔ)設(shè)施，包括冷卻系統(tǒng)、不間斷電源系統(tǒng)和備用發(fā)電機。

微軟 AI 平臺公司副總裁 Eric Boyd 表示，這種為大型語言模型訓(xùn)練和下一波 AI 創(chuàng)新而優(yōu)化的超算能力，已經(jīng)可以在 Azure 云服務(wù)中直接獲得。

并且微軟通過與 OpenAI 的合作，積累了大量經(jīng)驗，當(dāng)其他合作方找來、想要同樣的基礎(chǔ)設(shè)施時，微軟也可以提供。

現(xiàn)在，微軟的 Azure 數(shù)據(jù)中心已經(jīng)覆蓋了全球 60 多個地區(qū)。

全新虛擬機:ND H100 v5

在上面這個基礎(chǔ)架構(gòu)上，微軟一直在繼續(xù)改進。

今天，微軟就官宣了全新的可大規(guī)模擴展虛擬機，這些虛擬機集成了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)。

通過虛擬機，微軟可以向客戶提供基礎(chǔ)設(shè)施，根據(jù)任何 AI 任務(wù)的規(guī)模進行擴展。據(jù)微軟稱，Azure 的新 ND H100 v5 虛擬機為開發(fā)者提供卓越的性能，同時調(diào)用數(shù)千個 GPU。

參考資料:

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場無關(guān)。僅供讀者參考，并請自行核實相關(guān)內(nèi)容。

即時閱讀

財經(jīng)視界

財經(jīng)圖文

湯臣倍健與美團買藥達(dá)成深度戰(zhàn)略合作，攜手邁進

2023年2月15日，湯臣倍健與美團買藥在北京舉辦了2023
國泰君安:維持李寧買入評級預(yù)計2022年增長

2021年收入增長目標(biāo)應(yīng)能確保實現(xiàn)，2022年收入增長預(yù)計將
國家外匯管理局批復(fù)同意開辟外匯“綠色通道”保

具體來看，一是簡化業(yè)務(wù)流程和材料，便利北京冬奧會相關(guān)區(qū)域內(nèi)境
源達(dá)：指數(shù)前高附近震蕩這個位置操作一定進退有

炒股就看金麒麟分析師研報，權(quán)威，專業(yè)，及時，全面，助您挖掘潛
索尼PS5三款全新配色DualSense手柄

，據(jù)索尼官方消息，新星粉，銀河紫，星光藍(lán)，三款全新配色Dua
《2021醫(yī)美行業(yè)白皮書》：今年中國醫(yī)美市場

，新氧數(shù)據(jù)顏究院發(fā)布《2021醫(yī)美行業(yè)白皮書》，白皮書顯示，