2023/8/8

AI Server主流規格

















整理一下最近很紅的GPU Utils文章, 覺得很有幫助的地方是該文章從需求面出發, 剛好補足台灣市場用硬體來看的觀點.

  • 規格面
    • HGX 8顆H100為目前主流
    • "訓練"階段仍以H100為主, 而且InfiniBand 很重要.
    • 之後"推論"階段效能需求似乎較小, 例如可以用舊的就好, V100, 或是A100.
    • H100綜合效能成本效益上依然划算.
    • AMD比較上有風險, 主要也是時程落後大家不敢冒險.


  • AI應用面
    • 主要還是Chat GPT, LLM相關的模型應用
    • 依然有新創公司再重新創造訓練新模型


  • 零件交易面
    • 缺貨潮中期待有新創倒閉就可以釋出A100, 西台灣礦卡商人又有事情做了嗎?
    • 買家的說法倒是沒有聽過的, 說大家囤貨FOMO
    • 討論的是缺貨時的分配方法, 提到疑似NVDA獨厚Oracle, 這真的很美國人的說法, 通篇充滿能做但不能說, 政確的態度.


  • 時程表
    • 3/13, Azure宣布H100s已經進入預購階段.
    • 3/21, Oracle宣布H100s已經限量提供預購.
    • 3/21, Lambda Labs宣布H100s將於4月初加入預購.
    • 3/21, AWS宣布H100s將在未來幾週內開始提供預購.
    • 5/10, Google Cloud宣布開始進行H100s的私人預購.
    • 緯穎表示A100伺服器預計今(2023)年底至明年出貨, 出乎意料地晚耶奇怪.


  • 目前各大公司H100在手的量約在千到萬顆之間
    • [Companies]         [Units]                [Model]
    • Meta           21,000 A100s GPT-4
    • Tesla             7,000 A100s GPT-4
    • Stability AI     5,000 A100s GPT-4
    • Hugging Face        384 A100s Falcon-40B
    • Inflection AI           3.5k H100s        GPT-3.5 Equiv.
    • GCP               25k H100s Various models
    • Azure         10k-40k H100s Various models
    • Oracle         10k-40k H100s Various models
    • CoreWeave 35k-40k H100s     Various models, base on order



source: 1 2