整理一下最近很紅的GPU Utils文章, 覺得很有幫助的地方是該文章從需求面出發, 剛好補足台灣市場用硬體來看的觀點.
- 規格面
- HGX 8顆H100為目前主流
- "訓練"階段仍以H100為主, 而且InfiniBand 很重要.
- 之後"推論"階段效能需求似乎較小, 例如可以用舊的就好, V100, 或是A100.
- H100綜合效能成本效益上依然划算.
- AMD比較上有風險, 主要也是時程落後大家不敢冒險.
- AI應用面
- 主要還是Chat GPT, LLM相關的模型應用
- 依然有新創公司再重新創造訓練新模型
- 零件交易面
- 缺貨潮中期待有新創倒閉就可以釋出A100, 西台灣礦卡商人又有事情做了嗎?
- 買家的說法倒是沒有聽過的, 說大家囤貨FOMO
- 討論的是缺貨時的分配方法, 提到疑似NVDA獨厚Oracle, 這真的很美國人的說法, 通篇充滿能做但不能說, 政確的態度.
- 時程表
- 3/13, Azure宣布H100s已經進入預購階段.
- 3/21, Oracle宣布H100s已經限量提供預購.
- 3/21, Lambda Labs宣布H100s將於4月初加入預購.
- 3/21, AWS宣布H100s將在未來幾週內開始提供預購.
- 5/10, Google Cloud宣布開始進行H100s的私人預購.
- 緯穎表示A100伺服器預計今(2023)年底至明年出貨, 出乎意料地晚耶奇怪.
- 目前各大公司H100在手的量約在千到萬顆之間
- [Companies] [Units] [Model]
- Meta 21,000 A100s GPT-4
- Tesla 7,000 A100s GPT-4
- Stability AI 5,000 A100s GPT-4
- Hugging Face 384 A100s Falcon-40B
- Inflection AI 3.5k H100s GPT-3.5 Equiv.
- GCP 25k H100s Various models
- Azure 10k-40k H100s Various models
- Oracle 10k-40k H100s Various models
- CoreWeave 35k-40k H100s Various models, base on order