GLM-5.2 打敗 GPT-5.5：中國開源模型以六分之一成本拿下 SWE-bench 冠軍

我對這次發布的判斷是：GLM-5.2 的本質不是技術突破，而是一個定價武器在出口管制真空期的精準卡位。SWE-bench Pro 那 3.5 分的差距，Fable 5 一旦解禁就不夠讓企業換 vendor。但如果你在業界跑過 GLM-5.2 對比 GPT-5.5 的生產環境測試，有沒有數字可以推翻這個判斷？特別是長程 agentic 任務完成率和 1M context 穩定性上，第三方複現數字目前幾乎沒有，這個坑我自己也填不了。

Z.ai（前身為中國 AI 新創智譜 AI）在 6 月 17 日公開 GLM-5.2 的完整權重和 API。753B 參數，SWE-bench Pro 62.1 分，超過 GPT-5.5 的 58.6。每百萬輸出 token 定價 4.40 美元，GPT-5.5 是 30 美元，差距六倍。MIT 授權代表企業不需要簽任何協議，直接下載、微調、商業部署。

供給缺口的精準卡位

GLM-5.2 公開 API 的時間點踩在一個真空窗口上。

Anthropic 的 Fable 5 自 6 月 12 日起被美國商務部緊急指令暫停出口，今天是第十天。觸發原因牽涉 SK Telecom 的 1 億美元投資和亞馬遜研究人員發現的安全漏洞。Fable 5 在多項 coding 基準上仍然領先，問題是開發者現在用不到它。

這個空窗讓 GLM-5.2 的定位幾乎是自動成立的。SWE-bench 超過 GPT-5.5、提供 Anthropic 相容的 API 端點、MIT 授權可以從 Hugging Face（zai-org/GLM-5.2）直接拉完整權重。目前使用 Claude Code 或 Cursor 的開發者，理論上只需要換一個 base URL。VentureBeat 的報導把這次稱為「中國開源模型首次在長程 coding 基準上確立領先」，這個說法放在六個月前根本不成立。

幾個被略過的細節

媒體報導把一些重要細節帶過了，拆開看。

SWE-bench Pro 62.1 vs GPT-5.5 58.6，差距是 3.5 分，相對提升約 6%。FrontierSWE 74.4% vs 72.6%，差距更窄，Claude Opus 4.8 的 FrontierSWE 75.1% 還比 GLM-5.2 高。Terminal-Bench 2.1 上 GPT-5.5 以 84.0 分勝過 GLM-5.2 的 81.0。這不是全面制霸，是在特定 coding 任務上的局部超越，一般代理推理 GPT-5.5 仍有優勢。加上這些數字全部來自 Z.ai 自行報告，沒有第三方獨立驗證，先打五折看待。

架構層面有一個真正值得注意的創新：IndexShare。稀疏注意力的索引跨多個 transformer 層複用，在 1M token context 下計算量降低約 2.9 倍。753B 參數中每次推理只激活約 40B（MoE 架構），成本優勢的工程根源在這裡。

成本差距放回費米估算看。SWE-bench 典型任務每次需要約 80K-120K 輸出 token，GPT-5.5 每個任務 2.4 至 3.6 美元，GLM-5.2 API 0.35 至 0.53 美元。每天跑 1,000 個 agentic coding 任務，一個月成本差距落在 57 萬到 93 萬美元之間，對大規模 CI/CD 整合的採購決策不是小數字。

自 hosting 另有入場門檻。Z.ai 建議最少 8 張 H100，雲端 spot 定價每小時 25 至 35 美元，一年算力成本約 22 萬美元，工程維運人力還沒算進去。MIT 授權對小團隊的意義更多是「理論上可以」，能跑起來的前提是有算力資本。

計時器、護城河、下載曲線

Fable 5 的解禁時間是整個局面的計時器。Chris Ciauri 說「未來幾天內」，若在 6 月底前解除管制，GLM-5.2 的替代窗口頂多兩週。拖到 7 月，市場就會開始重新定價 API 依賴的風險，閉源廠商從沒有因為出口管制失去這麼大塊的 coding 工具市場，這個訊號不常見。

更結構性的壓力往 OpenRouter 那邊找。Fusion 的多模型合成（Gemini + Kimi + DeepSeek）在 DRACO 評估上達到 64.7%，接近 Fable 5 的獨立表現。這個數字若能在獨立測試中站得住，「單一最強模型」的護城河正在被組合侵蝕，對所有閉源廠商都是長期壓力，不只是這週的事。

下載量是最後一條確認線。DeepSeek-V3 一週突破 100 萬次，GLM-5.2 能否複製那個速度，決定 Z.ai 的定價策略有沒有足夠的市場基礎撐著。

6 月底前後，Fable 5 解禁時間和 GLM-5.2 下載曲線會同時給出答案。兩週插曲，還是結構性位移的起點，7 月第一週就知道。

如果這篇對你有幫助，訂閱電子報可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。

相關閱讀

GLM-5.2 打敗 GPT-5.5：中國開源模型以六分之一成本拿下 SWE-bench 冠軍

供給缺口的精準卡位

幾個被略過的細節

計時器、護城河、下載曲線

相關文章

OpenRouter 美系模型跌破三成：中國 AI 稱霸開發者流量，OpenAI IPO 前的定價困境

GPT-5.6 發布了，但你用不到：美國政府審查正在重塑前沿 AI 模型的上市流程

供給缺口的精準卡位

幾個被略過的細節

計時器、護城河、下載曲線

相關文章

OpenRouter 美系模型跌破三成：中國 AI 稱霸開發者流量，OpenAI IPO 前的定價困境

GPT-5.6 發布了，但你用不到：美國政府審查正在重塑前沿 AI 模型的上市流程

訂閱最新分享