← Zurück zu Einblicke

Chinas LineShine toppt TOP500 mit 2,198 Exaflops: Der KI-Trainingsrückstand bleibt groß

Nils Liu
LineShine TOP500 超算 中國 AI AI 晶片 算力 Exascale ARM

Kurzfassung

Chinas LineShine belegt Platz 1 der TOP500-Liste mit 2,198 Exaflops, ganz ohne Nvidia-, Intel- oder AMD-Chips. Doch Linpack misst FP64-Algebra, kein KI-Training. Fermi-Rechnung zeigt: Ein vergleichbarer GPU-Cluster trainiert dasselbe Modell 5-mal schneller bei einem Neuntel der Stromkosten.

Chinas LineShine toppt TOP500 mit 2,198 Exaflops: Der KI-Trainingsrückstand bleibt groß

Meine These: Die TOP500-Krone hat geopolitisch und für wissenschaftliches HPC Gewicht, verschiebt jedoch den Maßstab im KI-Frontierwettbewerb kaum. Die Fermi-Rechnung ergibt einen Faktor 5 beim Trainingstempo und Faktor 9 bei den Stromkosten, verglichen mit einem gleichwertigen GPU-Cluster. Wer im HPC- oder KI-Infrastrukturumfeld ähnliche Kosten-pro-FLOP-Vergleiche durchgeführt hat: Wo weichen eure Zahlen von meiner Schätzung ab, und warum?


Am 23. Juni 2026 verkündete die TOP500-Liste auf der ISC 2026 in Hamburg eine überraschende Spitzenbesetzung. LineShine, ein System im National Supercomputing Center Shenzhen, debütierte mit 2,198 Exaflops auf dem HPL-Benchmark auf Platz eins. Nvidia, Intel und AMD kommen darin nicht vor.

Das entspricht einem Vorsprung von rund 20 Prozent gegenüber dem bisherigen Spitzenreiter El Capitan des US-Energieministeriums. LineShine ist das erste rein CPU-basierte System in der TOP500-Geschichte, das die 2-Exaflops-Marke überschreitet.

Was LineShine ist

Der Kern des Systems ist der selbst entwickelte LX2-Prozessor, ein Armv9-Design mit 304 Kernen pro Die, betrieben mit 1,55 GHz. Jeder Rechenknoten kombiniert den LX2 mit acht gestapelten HBM-Modulen, 32 GB Kapazität und 4 TB/s Speicherbandbreite, dazu 256 GB DDR5. Die 20.480 Knoten ergeben zusammen rund 13,79 Millionen Kerne.

Die Verbindung übernimmt das ebenfalls eigenentwickelte LingQi-Netzwerk mit 1,6 Tbps pro Knoten in einer vierstufigen Fat-Tree-Topologie. Das Betriebssystem ist KylinOS, ein Linux-Derivat. Der Gesamtstromverbrauch liegt bei 42,2 MW, was einer Effizienz von 52 GFlops pro Watt entspricht.

Von Chip über Interconnect bis Betriebssystem: LineShine belegt, dass China ein globales HPC-Spitzensystem ohne ein einziges westliches Halbleiterkomponent bauen kann. Dieses geopolitische Signal ist ernst zu nehmen.

Die Zahlen hinter den Zahlen

Der entscheidende Vorbehalt liegt darin, was HPL Linpack tatsächlich misst. Es geht um FP64-Doppelpräzisions-Matrixoperationen, einen Benchmark für Wettersimulationen, Kernphysik und Molekulardynamik. Nicht für KI-Training.

LLM-Training läuft in FP16 oder BF16. Hochleistungs-GPUs schieben das mit FP8-Tensorkernen noch weiter, wo sich die Leistungsverhältnisse drastisch verschieben.

Konkret: Jeder LX2-Chip liefert etwa 120 TFLOPS in FP32. Ein Nvidia H100 SXM5 erreicht in FP8 3.958 TFLOPS, das 33-fache relevanter KI-Rechenleistung je Chip.

Fermi-Schätzung für das Training eines GPT-4-großen Modells (rund 3×10²⁴ FLOPs):

LineShine mit 30 Prozent effektiver KI-Auslastung liefert etwa 740 Petaflops/s KI-äquivalente Rechenleistung. Trainingsdauer: rund 47 Tage. Bei Chinas industriellem Strompreis von 0,05 US-Dollar pro kWh kostet allein der Strom etwa 2,38 Millionen US-Dollar.

Dieselbe Aufgabe auf einem Cluster aus 2.000 H100-GPUs bei 50 Prozent Auslastung liefert rund 3,95 Exaflops KI-äquivalente Rechenleistung. Trainingsdauer: 8,8 Tage. Stromkosten: rund 250.000 US-Dollar.

Fünfmal schneller. Neunmal günstiger beim Strom.

Das ist keine Kritik an der Ingenieursleistung von LineShine. Die HBM-Bandbreite des LX2 von 4 TB/s übertrifft die 3,35 TB/s des H100, was ihn für speicherbandbreitenbegrenzte Inferenz-Workloads, etwa bei sehr langen Kontextfenstern, strukturell konkurrenzfähig macht. Doch der aktuelle KI-Rüstungswettbewerb dreht sich ums Training, und die Physik von CPU gegenüber GPU-Tensorkernen begünstigt LineShine in diesem Workload nicht.

HPCwires technische Tiefenanalyse und die Markteinschätzung von Digitimes benennen dieselbe Lücke: Platz eins in der TOP500 bedeutet nicht Platz eins beim KI-Training.

Chinas führende KI-Labore, Baidu, ByteDance und Alibaba, betreiben ihre Cluster mit Huawei Ascend 910B/910C und Nvidia A100 aus Vorkrisenbeständen. LineShine bedient diesen Stack nicht. Der eigentliche KI-Compute-Engpass liegt im Leistungsvergleich Ascend gegen H100/B200, nicht in Linpack-Ranglisten.

Die Indikatoren, die es wert sind, beobachtet zu werden

Drei Entwicklungen in den nächsten drei bis sechs Monaten zeigen, was diese Ankündigung für den KI-Wettbewerb tatsächlich bedeutet:

Erstens: ob China LineShine-Ergebnisse bei MLPerf Training einreicht. Dort sind die ResNet-50- und GPT-3-Trainings-Benchmarks der legitime KI-Vergleichsstandard. Linpack ist es nicht. Erscheint eine Einreichung, sprechen die Zahlen für sich. Erscheint keine, hat die TOP500-Platzierung ihre KI-Relevanz ausgeschöpft.

Zweitens: ob Huawei seine Ascend-910C-Einreichungen bei MLPerf aktualisiert. Das tatsächliche China-USA-Gefälle beim KI-Compute liegt im Trainings-Durchsatzvergleich Ascend gegen H100/B200, gemessen in Token pro Sekunde und Dollar. Diese Zahl, nicht die TOP500-Liste, ist der entscheidende Indikator für die Entwicklung von Frontier-Modellen.

Drittens: ob LX2 in öffentlichen GEMM- oder Transformer-Trainings-Benchmarks auftaucht. ARMs SME-Matrixerweiterung hat theoretisches Potenzial für Matrix-Multiply-Workloads. Reale Inferenz- oder Trainingszahlen auf LX2 sind bislang nicht veröffentlicht. Diese Informationslücke ist die eigentliche Unbekannte in dieser Geschichte.

Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.

Abonnieren Sie die neuesten Erkenntnisse

Abonnieren Sie den Newsletter, um meine neuesten Artikel über AI Agents in Finanzinstituten, GenAI und Architektur zu erhalten.

Kein Spam. Jederzeit kündbar.