← 返回文章列表

GLM-5.2 打敗 GPT-5.5:中國開源模型以六分之一成本拿下 SWE-bench 冠軍

Nils Liu
GLM-5.2 Zhipu AI Open Source AI GPT-5.5 SWE-bench Chinese AI Open Weight Model

重點摘要

Z.ai(前智譜 AI)發布的 GLM-5.2 在 SWE-bench Pro 拿下 62.1 分,超過 GPT-5.5 的 58.6,API 定價僅 4.40 美元/百萬輸出 token,相當於 GPT-5.5 的六分之一。MIT 授權讓企業可以直接下載微調,搭配 Fable 5 出口管制造成的供給缺口,時機非常精準。

GLM-5.2 打敗 GPT-5.5:中國開源模型以六分之一成本拿下 SWE-bench 冠軍

我對這次發布的判斷是:GLM-5.2 的本質不是技術突破,而是一個定價武器在出口管制真空期的精準卡位。SWE-bench Pro 那 3.5 分的差距,Fable 5 一旦解禁就不夠讓企業換 vendor。但如果你在業界跑過 GLM-5.2 對比 GPT-5.5 的生產環境測試,有沒有數字可以推翻這個判斷?特別是長程 agentic 任務完成率和 1M context 穩定性上,第三方複現數字目前幾乎沒有,這個坑我自己也填不了。

Z.ai(前身為中國 AI 新創智譜 AI)在 6 月 17 日公開 GLM-5.2 的完整權重和 API。753B 參數,SWE-bench Pro 62.1 分,超過 GPT-5.5 的 58.6。每百萬輸出 token 定價 4.40 美元,GPT-5.5 是 30 美元,差距六倍。MIT 授權代表企業不需要簽任何協議,直接下載、微調、商業部署。

供給缺口的精準卡位

GLM-5.2 公開 API 的時間點踩在一個真空窗口上。

Anthropic 的 Fable 5 自 6 月 12 日起被美國商務部緊急指令暫停出口,今天是第十天。觸發原因牽涉 SK Telecom 的 1 億美元投資和亞馬遜研究人員發現的安全漏洞。Fable 5 在多項 coding 基準上仍然領先,問題是開發者現在用不到它。

這個空窗讓 GLM-5.2 的定位幾乎是自動成立的。SWE-bench 超過 GPT-5.5、提供 Anthropic 相容的 API 端點、MIT 授權可以從 Hugging Face(zai-org/GLM-5.2) 直接拉完整權重。目前使用 Claude Code 或 Cursor 的開發者,理論上只需要換一個 base URL。VentureBeat 的報導 把這次稱為「中國開源模型首次在長程 coding 基準上確立領先」,這個說法放在六個月前根本不成立。

幾個被略過的細節

媒體報導把一些重要細節帶過了,拆開看。

SWE-bench Pro 62.1 vs GPT-5.5 58.6,差距是 3.5 分,相對提升約 6%。FrontierSWE 74.4% vs 72.6%,差距更窄,Claude Opus 4.8 的 FrontierSWE 75.1% 還比 GLM-5.2 高。Terminal-Bench 2.1 上 GPT-5.5 以 84.0 分勝過 GLM-5.2 的 81.0。這不是全面制霸,是在特定 coding 任務上的局部超越,一般代理推理 GPT-5.5 仍有優勢。加上這些數字全部來自 Z.ai 自行報告,沒有第三方獨立驗證,先打五折看待。

架構層面有一個真正值得注意的創新:IndexShare。稀疏注意力的索引跨多個 transformer 層複用,在 1M token context 下計算量降低約 2.9 倍。753B 參數中每次推理只激活約 40B(MoE 架構),成本優勢的工程根源在這裡。

成本差距放回費米估算看。SWE-bench 典型任務每次需要約 80K-120K 輸出 token,GPT-5.5 每個任務 2.4 至 3.6 美元,GLM-5.2 API 0.35 至 0.53 美元。每天跑 1,000 個 agentic coding 任務,一個月成本差距落在 57 萬到 93 萬美元之間,對大規模 CI/CD 整合的採購決策不是小數字。

自 hosting 另有入場門檻。Z.ai 建議最少 8 張 H100,雲端 spot 定價每小時 25 至 35 美元,一年算力成本約 22 萬美元,工程維運人力還沒算進去。MIT 授權對小團隊的意義更多是「理論上可以」,能跑起來的前提是有算力資本。

計時器、護城河、下載曲線

Fable 5 的解禁時間是整個局面的計時器。Chris Ciauri 說「未來幾天內」,若在 6 月底前解除管制,GLM-5.2 的替代窗口頂多兩週。拖到 7 月,市場就會開始重新定價 API 依賴的風險,閉源廠商從沒有因為出口管制失去這麼大塊的 coding 工具市場,這個訊號不常見。

更結構性的壓力往 OpenRouter 那邊找。Fusion 的多模型合成(Gemini + Kimi + DeepSeek)在 DRACO 評估上達到 64.7%,接近 Fable 5 的獨立表現。這個數字若能在獨立測試中站得住,「單一最強模型」的護城河正在被組合侵蝕,對所有閉源廠商都是長期壓力,不只是這週的事。

下載量是最後一條確認線。DeepSeek-V3 一週突破 100 萬次,GLM-5.2 能否複製那個速度,決定 Z.ai 的定價策略有沒有足夠的市場基礎撐著。

6 月底前後,Fable 5 解禁時間和 GLM-5.2 下載曲線會同時給出答案。兩週插曲,還是結構性位移的起點,7 月第一週就知道。

如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。


相關閱讀

訂閱最新分享

加入電子報,第一時間獲取關於金融 AI Agent 實戰與架構設計的最新文章。不訂閱你會慢別人一個週期!

絕不發送垃圾信。隨時皆可取消訂閱。