LineShine 2.198 Exaflops 奪下 TOP500：換算成 AI 訓練，差距還很遠

我認為 TOP500 排名對 AI 競爭的實際意義被嚴重高估。LineShine 的工程成就是真實的，但它解決的問題和中美 AI 算力差距的核心不在同一層。費米估算顯示：同等工作交給 GPU 叢集要快 5 倍、省 9 倍電費。如果你在做 HPC 規劃或 AI 算力評估，你跑過類似的估算嗎？你的數字和這裡一樣嗎？

6 月 23 日，在漢堡的 ISC 2026 學術年會，TOP500 宣布一個讓很多人意外的結果：排名第一的系統是 LineShine，安裝在深圳國家超算中心，全程不含 Nvidia、Intel 或 AMD 的晶片。

這台機器跑出 2.198 Exaflops 的 Linpack 成績，超過排名第二的美國 El Capitan 約 20%，是 TOP500 歷史上第一個純 CPU 系統突破 2 Exaflops 的案例。

這台機器怎麼做到的

LineShine 的核心是自研的 LX2 處理器，採用 Armv9 指令集，每顆 304 核心、主頻 1.55 GHz。全系統 20,480 個計算節點，合計 1378 萬個核心。每個節點整合 8 塊疊置式高頻寬記憶體，帶寬 4 TB/s，再加 256 GB DDR5。節點間互連用同樣自研的 LingQi 網路，每節點頻寬 1.6 Tbps，四層肥樹拓撲。

整個系統滿載功耗 42.2 MW，換算能效是每瓦 52 Gigaflops。作業系統是 KylinOS，基於 Linux 核心。從晶片到互連到作業系統，這台機器展示了中國可以在沒有任何西方關鍵零組件的條件下建出全球排名第一的 HPC 系統。這個政治意義是真實的。

工程層面，LX2 整合的是 ARM 的 SME 矩陣擴展，理論上支援矩陣乘法加速。80% 的 Linpack 峰值利用率也高於業界平均，代表系統整合品質相當紮實。

數字背後的真相

先把「2.198 Exaflops」這個數字拆清楚。

TOP500 用的 HPL Linpack 測量的是 FP64 雙精度浮點的密集矩陣運算，這個 benchmark 是為氣象模擬、核物理計算、分子動力學設計的。AI 大型語言模型訓練用的是 FP16 或 BF16，高端 GPU 在 FP8 精度下還能進一步翻倍。

數字換算：LX2 每顆晶片的 FP32 峰值約 120 TFLOPS。Nvidia H100 SXM5 的 FP8 峰值是 3958 TFLOPS，大約是 LX2 的 33 倍。

拿訓練 GPT-4 規模的模型當基準，FLOPs 需求約 3×10²⁴。LineShine 在 30% 有效利用率下的 AI 等效算力約 740 Petaflops/s，完成這份工作需要大約 47 天。按中國工業電 0.05 美元/kWh 算，電費約 238 萬美元。

同樣的工作交給 2000 台 H100 叢集，50% 利用率下等效 AI 算力約 3.95 Exaflops，訓練時間 8.8 天，電費約 25 萬美元。速度快 5 倍，電費省 9 倍。

這份差距不是 LineShine 工程品質的問題，是 CPU 架構對比 GPU 張量核的物理限制。有一點值得留意：LX2 的 HBM 帶寬 4 TB/s 比 H100 的 3.35 TB/s 還高。對記憶體帶寬受限的超長文本推論，LX2 有結構性優勢。但當前 AI 前沿競爭的核心仍在訓練，不在推論，這個優勢能在哪個場景派上用場，還需要更多實測數據。

HPCwire 的技術深潛報告和 Digitimes 的市場分析都直接點出這個矛盾：TOP500 第一，不等於 AI 訓練能力第一。

中國目前主要 AI 實驗室的算力來自華為 Ascend 910B/910C 以及出口管制前庫存的 Nvidia A100，LineShine 並不直接服務這條線。而上週我們分析的 Qualcomm 收購 Modular 和中國 AI 模型在 OpenRouter 份額崩跌，反映的是另一個層次的競爭態勢，TOP500 沒有觸及。

接下來值得觀察的指標

三到六個月內，有三件事的走向會告訴你 AI 算力競爭的真實樣貌：

第一，中國是否在 MLPerf Training 提交 LineShine 的成績。MLPerf 的 ResNet-50 和 GPT-3 訓練基準才是 AI workload 的公允比較標準，Linpack 沒有這個效力。如果有提交，再看數字；如果沒有，這個 TOP500 排名的 AI 意義就到此為止。

第二，華為 Ascend 910C 有沒有在 MLPerf 更新提交。中美 AI 算力差距的真正衡量標不在 TOP500，在 Ascend 對比 H100/B200 在同一個訓練 workload 的 token/sec/dollar 比。

第三，LX2 有沒有在 GEMM 或 transformer 訓練的公開 benchmark 被提交。ARM SME 矩陣擴展在理論上能做到什麼，目前沒有公開的實測數字可以驗證，這個缺口是真正的資訊盲點。

如果這篇對你有幫助，訂閱電子報可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。

LineShine 2.198 Exaflops 奪下 TOP500：換算成 AI 訓練，差距還很遠

這台機器怎麼做到的

數字背後的真相

接下來值得觀察的指標

相關文章

高盛：AI 基礎建設 6 年吃掉 7.6 兆美元，NVIDIA 拿走四分之三算力

NVIDIA N1X 正式發表：CUDA 進入 ARM 筆電，黃仁勳宣告 PC 新紀元

這台機器怎麼做到的

數字背後的真相

接下來值得觀察的指標

相關文章

高盛：AI 基礎建設 6 年吃掉 7.6 兆美元，NVIDIA 拿走四分之三算力

NVIDIA N1X 正式發表：CUDA 進入 ARM 筆電，黃仁勳宣告 PC 新紀元

訂閱最新分享