← Zurück zu Einblicke

GLM-5.2 schlägt GPT-5.5: Chinas Open-Weight-Modell gewinnt SWE-bench-Krone zum Sechstel des Preises

Nils Liu
GLM-5.2 Zhipu AI Open Source AI GPT-5.5 SWE-bench Chinese AI Open Weight Model

Kurzfassung

Z.ai veröffentlicht GLM-5.2: 753B Open-Weight-Modell mit 62,1 Punkten auf SWE-bench Pro, besser als GPT-5.5, für 4,40 Dollar pro Million Output-Tokens. MIT-Lizenz und Anthropic-kompatible API machen es zum direkten Ersatz für gesperrte Modelle.

GLM-5.2 schlägt GPT-5.5: Chinas Open-Weight-Modell gewinnt SWE-bench-Krone zum Sechstel des Preises

Z.ai (ehemals Zhipu AI) hat am 17. Juni die vollständigen Gewichte und die API von GLM-5.2 freigegeben. Das Open-Weight-Modell mit 753 Milliarden Parametern erreicht 62,1 Punkte auf SWE-bench Pro, knapp vor GPT-5.5 mit 58,6. Der Preisunterschied ist noch auffälliger: 4,40 Dollar pro Million Output-Tokens gegenüber 30 Dollar bei GPT-5.5, etwa das Sechsfache. Die MIT-Lizenz erlaubt Unternehmen, das Modell kostenlos herunterzuladen, anzupassen und kommerziell einzusetzen, ohne einen Lizenzvertrag unterzeichnen zu müssen.

Warum der Zeitpunkt entscheidend ist

GLM-5.2 erscheint nicht im luftleeren Raum. Anthropics Fable 5 und Mythos 5 sind seit dem 12. Juni durch eine Notfallanordnung des US-Handelsministeriums offline, heute ist Tag 10. Auslöser war SK Telecoms 100-Millionen-Dollar-Investition in Anthropic sowie Sicherheitslücken, die ein Amazon-Forschungsteam entdeckte.

In diese Angebotslücke tritt GLM-5.2 mit einem Anthropic-kompatiblen API-Endpunkt ein. Entwickler, die aktuell Claude Code oder Cursor nutzen, können theoretisch eine Base-URL austauschen und weiterarbeiten. Die Gewichte sind auf Hugging Face (zai-org/GLM-5.2) verfügbar.

VentureBeat berichtete, dies sei das erste Mal, dass ein chinesisches Open-Weight-Modell bei Long-Horizon-Coding-Benchmarks die Führung übernommen habe. Vor sechs Monaten wäre dieser Satz nicht ernsthaft geschrieben worden.

Was die Zahlen wirklich sagen

Die Headline-Werte verdienen eine genauere Betrachtung.

SWE-bench Pro 62,1 vs 58,6 bedeutet eine absolute Differenz von 3,5 Punkten, einer relativen Verbesserung von etwa 6%. FrontierSWE 74,4% vs 72,6% ist ein noch kleinerer Abstand, und Claude Opus 4.8 liegt dort bei 75,1%. Auf Terminal-Bench 2.1 gewinnt GPT-5.5 mit 84,0 gegenüber GLM-5.2’s 81,0. Es handelt sich um eine kategorienspezifische Führung bei Long-Horizon-Coding-Aufgaben, nicht um eine generelle Überlegenheit.

Alle Benchmark-Zahlen stammen aus Z.ais eigenen Berichten. Eine unabhängige Drittverifikation fehlt bisher. Selbstgemessene Zahlen sollten erst nach Replikation als belastbar gelten.

Architektonisch gibt es eine wirklich bemerkenswerte Innovation: IndexShare. Der Mechanismus wiederverwendet Sparse-Attention-Indizes über mehrere Transformer-Schichten hinweg und reduziert Gleitkommaoperationen bei 1M-Token-Kontextlänge um etwa das 2,9-Fache. Bei 753 Milliarden Gesamtparametern, aber nur rund 40 Milliarden aktiven Parametern pro Inferenz (MoE-Architektur), hat der Kostenvorteil eine konkrete technische Grundlage.

Eine schnelle Kostenschätzung für reale Arbeitslasten: Eine typische SWE-bench-Aufgabe verbraucht 80.000 bis 120.000 Output-Tokens. Bei GPT-5.5-Preisen kostet das 2,40 bis 3,60 Dollar pro Aufgabe. Bei GLM-5.2 sind es 0,35 bis 0,53 Dollar. Bei 1.000 agentenbasierten Coding-Aufgaben täglich beläuft sich der monatliche Unterschied auf etwa 57.000 bis 93.000 Dollar. Für Teams, die große agentenbasierte CI/CD-Pipelines betreiben, ist das keine Randnotiz.

Das Selbst-Hosten setzt eine höhere Hürde: mindestens acht H100-GPUs. Cloud-Spot-Preise liegen bei 25 bis 35 Dollar pro Stunde, rund 220.000 Dollar jährlich allein für Rechenleistung. Die MIT-Lizenz gibt kleineren Teams das theoretische Recht, das Modell zu betreiben, aber die Hardwarekosten entscheiden letztlich über den Zugang.

Worauf es jetzt ankommt

Drei konkrete Datenpunkte werden bestimmen, wohin sich diese Situation entwickelt.

Erstens, wann Fable 5 wieder verfügbar wird. Wenn die Exportbeschränkung vor dem 30. Juni aufgehoben wird, beläuft sich das Substitutionsfenster für GLM-5.2 auf etwa zwei Wochen. Verlängert sich die Sperre bis Juli, müssen Beschaffungsverantwortliche in Unternehmen längerfristige Entscheidungen über API-Diversifizierung treffen.

Zweitens, ob die OpenRouter-Fusion-DRACO-Zahlen einer unabhängigen Prüfung standhalten. Berichten zufolge erreicht eine Kombination aus Gemini, Kimi und DeepSeek 64,7% auf DRACO-Bewertungen, nahe an Fable 5s Einzelleistung. Wenn das reproduzierbar ist, bedeutet es, dass Multi-Modell-Synthese den Schutzwall des stärksten Einzelmodells erodiert.

Drittens, die Download-Dynamik von GLM-5.2 auf Hugging Face bis Ende August. DeepSeek-V3 erreichte in der ersten Woche eine Million Downloads. Ob GLM-5.2 dieses Tempo erreicht, entscheidet, ob Z.ais Preisstrategie als Wachstumstreiber oder als Nischenangebot einzustufen ist.

Die eigentliche Frage ist nicht ob chinesische Open-Weight-Modelle mit proprietären Frontiersystemen mithalten können — das haben sie hier demonstriert. Sondern ob Unternehmen bereit sind, Beschaffungsentscheidungen zu treffen, die explizit auf Anbieterdiversifizierung statt auf Leistungsmaximierung zielen. Wenn Sie in einem deutschen Unternehmen arbeiten: Ist diese Diskussion in Ihrem Einkaufs- oder IT-Bereich schon angekommen?

Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.


Verwandte Artikel

Abonnieren Sie die neuesten Erkenntnisse

Abonnieren Sie den Newsletter, um meine neuesten Artikel über AI Agents in Finanzinstituten, GenAI und Architektur zu erhalten.

Kein Spam. Jederzeit kündbar.