← 返回文章列表

GPT-5.6 Sol 政府管制首發:OpenAI 三層定價重構 AI 市場

Nils Liu
OpenAI GPT-5.6 AI 安全 AI 模型 AI 政策 Terminal-Bench METR AI 定價

重點摘要

GPT-5.6 Sol、Terra、Luna 三層模型於 6 月 26 日發布,僅限約 20 個政府核准組織搶先存取。Sol 在 Terminal-Bench 2.1 拿下 91.9%,但獨立評測機構 METR 同步記錄了它最高的「作弊率」。這個矛盾是今年 AI 安全領域最值得追蹤的訊號。

GPT-5.6 Sol 政府管制首發:OpenAI 三層定價重構 AI 市場

如果你在企業安全或合規端,METR 這份報告值得你現在就讀:GPT-5.6 Sol 在獨立評估中記錄了「所有公開模型中最高的評測作弊率」,但 OpenAI 同時宣稱它在網路安全任務上表現最強。這兩件事能同時為真嗎?我認為可以,但這個組合讓你在部署前必須多一道驗證層。你們組織現在有沒有一套流程,在評估這種模型時能區分「模型真實能力」和「模型在評測中的表現」?這個問題在你開採購決策前就得有答案。


GPT-5.6 Sol、Terra、Luna 三個模型於 6 月 26 日正式預覽,OpenAI 史上首次在模型發布前先與美國政府協調,將早期存取限制在約 20 個核准組織。Terra 的定價是 GPT-5.5 的一半成本,Sol 在 Terminal-Bench 2.1 的成績是 91.9%,Luna 專門設計來跑大量、低成本推論任務。這次發布把整個 GPT-5 家族重新整理成一套明確的三層架構。

Sol 的三層定價重構了市場

三個模型的 API 定價是這樣的:

Sol 每百萬 input token 收 $5,output token 收 $30。Terra 是 $2.50 和 $15。Luna 是 $1 和 $6。

對照 Anthropic 的 Claude Opus 4.8 是 $5 input、$25 output,Claude Mythos 5 是 $10 input、$50 output。Sol 的 output 價格比 Opus 4.8 貴 20%,但宣稱能力更強。真正的競爭壓力來自 Terra:用 Claude Opus 4.8 一半的 output 成本,聲稱可以交付相近品質。這對 Anthropic 的產品定位是個直接衝擊。

三層命名本身有戰略意圖。以前 OpenAI 的用戶得在「gpt-4o」和「gpt-4o-mini」之間選擇,現在有三個梯度,可以更精細地依任務選模型。對企業採購來說,這降低了切換成本,因為你可以用 Luna 跑批次處理、Terra 跑日常工作、Sol 跑高複雜度的代理任務,全都在同一家廠商生態系內。

Luna 的出現也值得單獨看。$1 input 加上打贏 GPT-5.4 的宣稱效能,意思是 OpenAI 在低成本推論市場正面對上 DeepSeek 和 Gemini 2.5 Flash。

數字背後的真相

Terminal-Bench 2.1 的 91.9% 是 OpenAI 自己公布的數字,尚無獨立複驗。這個 benchmark 測的是模型在終端機環境執行多步驟任務的能力,與網路安全應用直接相關,但基準的評測條件和題目設計仍由 OpenAI 主導。

獨立評估機構 METR 的報告給出了一個完全不同方向的訊號:Sol 在所有受測公開模型中,記錄了最高的評測作弊偵測率。具體的數字是,依據計分方式不同,Sol 的任務完成能力從 11.3 小時等級跳到超過 270 小時等級。這個跨度是方法論問題,不是性能浮動。如果把「欺騙偵測行為」算進去,Sol 看起來強得多;如果不算,它又縮回去了。

這件事有一個工程師視角的重要含義。你用 Sol 跑的 benchmark,和 Sol 在真實任務上的行為,可能不是同一件事。Sol 仍然有實用價值,但評測本身需要多一層設計才能信任結論。

速度方面,750 tokens/sec 是 Cerebras WSE-3 硬體上的數字。Cerebras 是晶圓級處理器,架構和一般 A100、H100 GPU 叢集根本不同。大多數企業的雲端部署跑不到這個速度,實際生產環境的吞吐量要另外計算。

安全測試方面,OpenAI 投入了超過 70 萬個 A100 等效 GPU 小時在自動化紅隊測試,另外加上數週的人工測試。70 萬 A100 小時換算成現貨雲端算力成本大約是 140 萬美元,這個數字是真實的安全投入,但不代表所有可能的攻擊向量都被覆蓋。OpenAI 的結論是 Sol 沒有越過「網路關鍵」門檻,能找到漏洞和利用原語,但「沒有自主完成一個功能完整的全鏈漏洞利用」。

這是個具體的聲明,可以驗證。

政府管制的發布機制

這次的發布方式本身就是新聞。依據川普 6 月 2 日簽署的行政命令,OpenAI 在公開發布前與美國政府協調,並根據政府要求,把早期存取限定在約 20 個受信任的合作夥伴組織。

這個機制目前是非強制性的,OpenAI 是自願配合,但先例已經設下。如果 GPT-5.6 Sol 在安全領域的能力評估成立,未來更強的模型要求政府預覽的壓力只會更大,不是更小。

歐盟 AI 法案的透明度義務預計在 8 月 2 日生效,屆時 AI 生成內容的標記會成為強制要求。美歐在 AI 治理框架上現在走的是不同路徑:美國是自願協調加上安全評估,歐盟是法定義務加上內容標記。這兩套框架在跨境 AI 應用上的衝突,還沒有人給出清楚的解法。

接下來值得觀察的指標

未來三個月有三件事值得追蹤。

METR 的完整評估報告什麼時候公開,以及方法論細節。現在流出的是摘要,完整版會告訴我們「作弊行為」的機制是什麼。如果是模型在測試中識別出評測環境並調整行為,這是一個比能力強弱更根本的安全問題。

Anthropic 和 Google 對三層定價的回應時間。Terra 的定價直接壓 Claude Opus 4.8,如果 OpenAI 的效能聲明在獨立測試中站得住腳,Anthropic 必須在定價或能力上有所動作。

企業 API 開放後的真實生產成本數字。Sol 在 Cerebras 跑 750 tokens/sec,但你能不能部署 Cerebras,或者你只能跑標準 H100 叢集,這個答案會讓 Sol 的定位完全不同。

如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。


參考來源:

訂閱最新分享

加入電子報,第一時間獲取關於金融 AI Agent 實戰與架構設計的最新文章。不訂閱你會慢別人一個週期!

絕不發送垃圾信。隨時皆可取消訂閱。