← 返回文章列表

GPT-5.6 發布了,但你用不到:美國政府審查正在重塑前沿 AI 模型的上市流程

Nils Liu
OpenAI GPT-5.6 AI Regulation AI Models Government Enterprise AI 新聞觀察

重點摘要

GPT-5.6 Sol 上線卻不對外開放,美國政府審查框架讓約 20 家企業先用,其餘等候。比 benchmark 更重要的,是這套管控模式能維持多久。

GPT-5.6 發布了,但你用不到:美國政府審查正在重塑前沿 AI 模型的上市流程

GPT-5.6 在 6 月 26 日低調上線,OpenAI 一口氣推出三個模型:Sol 主攻硬問題、Terra 追性價比、Luna 壓低成本。消息在技術社群流傳得快,但大部分工程師看完之後的感覺大概是同一件事:和我沒關係。原因很直接,GPT-5.6 目前只開放給約 20 家通過美國政府審查的夥伴企業,API 不對外,一般開發者看得到規格表看不到模型。這個細節比三個模型的 benchmark 數字都值得認真對待。

先亮出我的判斷,歡迎打臉:政府審查新 AI 模型上市的這套做法,12 個月內就會因為無法規模化而被迫收縮。操作上不可規模化,要審查的模型數量只會增加,而閉源審查制度給獲准企業創造的競爭壁壘遲早會引來反壟斷挑戰。但如果你在企業裡負責 AI 供應鏈規劃,特別是上半年已經因為 Anthropic Fable 5 遭禁而被迫調整架構,你現場的觀察和這個預測一致嗎?

Sol、Terra、Luna,各管什麼

三層命名有一點剛好。Sol 是旗艦,每百萬 tokens 輸入 $5、輸出 $30,跟 GPT-5.5 完全一樣,旗艦端的成本沒有改善。Terra 是這次在商業上最值得看的模型:輸入 $2.50,比 Claude Sonnet 4.6 便宜 17%,輸出 $15 持平,號稱效能接近上一代旗艦。Luna 是量產版,輸入 $1、輸出 $6,定位高頻低複雜度任務。

三個模型目前全部無法公開使用。OpenAI 說「幾週內」擴大存取,但沒有給具體日期。

數字背後的真相

OpenAI 引用的核心數字是 Terminal-Bench 2.1:Sol Ultra 得分 91.9%,Claude Mythos 5 是 88.0%,相差 3.9 個百分點。有幾層要放進去看。

Terminal-Bench 2.1 是 OpenAI 自己開發的命令列工作流程測試,由自家公司量自家模型,獨立驗證尚未出現。91.9% 的成績來自 Sol Ultra 模式,這個模式啟動平行子代理人,把複雜任務拆解後再整合。基礎版 Sol 在同一 benchmark 的得分是 88.8%,Ultra 和基礎版之間 3.1 分的差距,追根究柢是多代理人架構帶來的工程加成。把 Sol Ultra 跟 Mythos 5 的單模型成績放在同一行比,是拿不同量級的東西對比。

安全測試上,OpenAI 投入了 70 萬 GPU 小時的自動化紅隊測試。以 H100 機器每小時約 3 美元計算,這大概是 210 萬美元的安全算力,放進一個大型語言模型的訓練總成本來看,數字大概在 1% 以下。Sol 沒有觸發 Preparedness Framework 的「網路安全高風險」紅線,這是它能夠發布的原因,也是 Fable 5 至今仍在禁令中的對照點。

費米估算一個遷移決策的量級:Terra 每百萬 tokens 輸入 2.50 美元,對一個每天跑一億 tokens 的中型 SaaS 產品,每個月比 Sonnet 4.6 少付約 1,500 美元,一年省下 18,000 美元。這個金額夠不夠覆蓋換供應商的工程遷移成本,取決於 Sonnet 4.6 在你的 prompt chain 裡嵌多深,以及你對下一次政府存取中斷的風險容忍度。

接下來值得觀察的指標

Terra 的 LMSYS Arena 排名。當 Terra 的 API 公開,獨立評測平台會快速跑出真實比較數字。Terra 若能在 Arena 維持 GPT-5.5 的多數分數,$2.50 的輸入定價就有實際的市場意義,也會對 Sonnet 4.6 的採用率形成壓力。

Fable 5 的解禁時程。Mythos 5 在 6 月 27 日獲部分解禁,限定用於關鍵基礎設施防禦。Fable 5 至今仍在禁令中。如果 9 月前沒有解禁,就意味著政府有意願讓一整個模型家族長期缺席市場,這個先例比任何個別模型的 benchmark 都更關鍵。

開源替代方案的採用率。Lindy CEO 已把全部流量切換到 DeepSeek V4-Pro。如果政府審查週期讓企業無法穩定規劃閉源前沿模型的使用,Llama 4 Scout 的 API 呼叫量會比任何公司聲明更早反映這個趨勢。

如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。

來源

訂閱最新分享

加入電子報,第一時間獲取關於金融 AI Agent 實戰與架構設計的最新文章。不訂閱你會慢別人一個週期!

絕不發送垃圾信。隨時皆可取消訂閱。