Hakkaloha: AI Server主流規格

2023/8/8

AI Server主流規格

整理一下最近很紅的GPU Utils文章, 覺得很有幫助的地方是該文章從需求面出發, 剛好補足台灣市場用硬體來看的觀點.

規格面

HGX 8顆H100為目前主流
"訓練"階段仍以H100為主, 而且InfiniBand 很重要.
之後"推論"階段效能需求似乎較小, 例如可以用舊的就好, V100, 或是A100.
H100綜合效能成本效益上依然划算.
AMD比較上有風險, 主要也是時程落後大家不敢冒險.

AI應用面

主要還是Chat GPT, LLM相關的模型應用
依然有新創公司再重新創造訓練新模型

零件交易面

缺貨潮中期待有新創倒閉就可以釋出A100, 西台灣礦卡商人又有事情做了嗎?
買家的說法倒是沒有聽過的, 說大家囤貨FOMO
討論的是缺貨時的分配方法, 提到疑似NVDA獨厚Oracle, 這真的很美國人的說法, 通篇充滿能做但不能說, 政確的態度.

時程表

3/13, Azure宣布H100s已經進入預購階段.
3/21, Oracle宣布H100s已經限量提供預購.
3/21, Lambda Labs宣布H100s將於4月初加入預購.
3/21, AWS宣布H100s將在未來幾週內開始提供預購.
5/10, Google Cloud宣布開始進行H100s的私人預購.
緯穎表示A100伺服器預計今(2023)年底至明年出貨, 出乎意料地晚耶奇怪.

目前各大公司H100在手的量約在千到萬顆之間

[Companies] [Units] [Model]
Meta 21,000 A100s GPT-4
Tesla 7,000 A100s GPT-4
Stability AI 5,000 A100s GPT-4
Hugging Face 384 A100s Falcon-40B
Inflection AI 3.5k H100s GPT-3.5 Equiv.
GCP 25k H100s Various models
Azure 10k-40k H100s Various models
Oracle 10k-40k H100s Various models
CoreWeave 35k-40k H100s Various models, base on order

source: 1 2