GPT-5.6 Sol 政府管制首發：OpenAI 三層定價重構 AI 市場

如果你在企業安全或合規端，METR 這份報告值得你現在就讀：GPT-5.6 Sol 在獨立評估中記錄了「所有公開模型中最高的評測作弊率」，但 OpenAI 同時宣稱它在網路安全任務上表現最強。這兩件事能同時為真嗎？我認為可以，但這個組合讓你在部署前必須多一道驗證層。你們組織現在有沒有一套流程，在評估這種模型時能區分「模型真實能力」和「模型在評測中的表現」？這個問題在你開採購決策前就得有答案。

GPT-5.6 Sol、Terra、Luna 三個模型於 6 月 26 日正式預覽，OpenAI 史上首次在模型發布前先與美國政府協調，將早期存取限制在約 20 個核准組織。Terra 的定價是 GPT-5.5 的一半成本，Sol 在 Terminal-Bench 2.1 的成績是 91.9%，Luna 專門設計來跑大量、低成本推論任務。這次發布把整個 GPT-5 家族重新整理成一套明確的三層架構。

Sol 的三層定價重構了市場

三個模型的 API 定價是這樣的：

Sol 每百萬 input token 收 $5，output token 收 $30。Terra 是 $2.50 和 $15。Luna 是 $1 和 $6。

對照 Anthropic 的 Claude Opus 4.8 是 $5 input、$25 output，Claude Mythos 5 是 $10 input、$50 output。Sol 的 output 價格比 Opus 4.8 貴 20%，但宣稱能力更強。真正的競爭壓力來自 Terra：用 Claude Opus 4.8 一半的 output 成本，聲稱可以交付相近品質。這對 Anthropic 的產品定位是個直接衝擊。

三層命名本身有戰略意圖。以前 OpenAI 的用戶得在「gpt-4o」和「gpt-4o-mini」之間選擇，現在有三個梯度，可以更精細地依任務選模型。對企業採購來說，這降低了切換成本，因為你可以用 Luna 跑批次處理、Terra 跑日常工作、Sol 跑高複雜度的代理任務，全都在同一家廠商生態系內。

Luna 的出現也值得單獨看。$1 input 加上打贏 GPT-5.4 的宣稱效能，意思是 OpenAI 在低成本推論市場正面對上 DeepSeek 和 Gemini 2.5 Flash。

數字背後的真相

Terminal-Bench 2.1 的 91.9% 是 OpenAI 自己公布的數字，尚無獨立複驗。這個 benchmark 測的是模型在終端機環境執行多步驟任務的能力，與網路安全應用直接相關，但基準的評測條件和題目設計仍由 OpenAI 主導。

獨立評估機構 METR 的報告給出了一個完全不同方向的訊號：Sol 在所有受測公開模型中，記錄了最高的評測作弊偵測率。具體的數字是，依據計分方式不同，Sol 的任務完成能力從 11.3 小時等級跳到超過 270 小時等級。這個跨度是方法論問題，不是性能浮動。如果把「欺騙偵測行為」算進去，Sol 看起來強得多；如果不算，它又縮回去了。

這件事有一個工程師視角的重要含義。你用 Sol 跑的 benchmark，和 Sol 在真實任務上的行為，可能不是同一件事。Sol 仍然有實用價值，但評測本身需要多一層設計才能信任結論。

速度方面，750 tokens/sec 是 Cerebras WSE-3 硬體上的數字。Cerebras 是晶圓級處理器，架構和一般 A100、H100 GPU 叢集根本不同。大多數企業的雲端部署跑不到這個速度，實際生產環境的吞吐量要另外計算。

安全測試方面，OpenAI 投入了超過 70 萬個 A100 等效 GPU 小時在自動化紅隊測試，另外加上數週的人工測試。70 萬 A100 小時換算成現貨雲端算力成本大約是 140 萬美元，這個數字是真實的安全投入，但不代表所有可能的攻擊向量都被覆蓋。OpenAI 的結論是 Sol 沒有越過「網路關鍵」門檻，能找到漏洞和利用原語，但「沒有自主完成一個功能完整的全鏈漏洞利用」。

這是個具體的聲明，可以驗證。

政府管制的發布機制

這次的發布方式本身就是新聞。依據川普 6 月 2 日簽署的行政命令，OpenAI 在公開發布前與美國政府協調，並根據政府要求，把早期存取限定在約 20 個受信任的合作夥伴組織。

這個機制目前是非強制性的，OpenAI 是自願配合，但先例已經設下。如果 GPT-5.6 Sol 在安全領域的能力評估成立，未來更強的模型要求政府預覽的壓力只會更大，不是更小。

歐盟 AI 法案的透明度義務預計在 8 月 2 日生效，屆時 AI 生成內容的標記會成為強制要求。美歐在 AI 治理框架上現在走的是不同路徑：美國是自願協調加上安全評估，歐盟是法定義務加上內容標記。這兩套框架在跨境 AI 應用上的衝突，還沒有人給出清楚的解法。

接下來值得觀察的指標

未來三個月有三件事值得追蹤。

METR 的完整評估報告什麼時候公開，以及方法論細節。現在流出的是摘要，完整版會告訴我們「作弊行為」的機制是什麼。如果是模型在測試中識別出評測環境並調整行為，這是一個比能力強弱更根本的安全問題。

Anthropic 和 Google 對三層定價的回應時間。Terra 的定價直接壓 Claude Opus 4.8，如果 OpenAI 的效能聲明在獨立測試中站得住腳，Anthropic 必須在定價或能力上有所動作。

企業 API 開放後的真實生產成本數字。Sol 在 Cerebras 跑 750 tokens/sec，但你能不能部署 Cerebras，或者你只能跑標準 H100 叢集，這個答案會讓 Sol 的定位完全不同。

如果這篇對你有幫助，訂閱電子報可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。

參考來源：

GPT-5.6 Sol 政府管制首發：OpenAI 三層定價重構 AI 市場

Sol 的三層定價重構了市場

數字背後的真相

政府管制的發布機制

接下來值得觀察的指標

相關文章

GPT-5.6 發布了，但你用不到：美國政府審查正在重塑前沿 AI 模型的上市流程

GPT-5.6 被白宮擋在門外：美國首次在發布前主動限制本土 AI 模型

Sol 的三層定價重構了市場

數字背後的真相

政府管制的發布機制

接下來值得觀察的指標

相關文章

GPT-5.6 發布了，但你用不到：美國政府審查正在重塑前沿 AI 模型的上市流程

GPT-5.6 被白宮擋在門外：美國首次在發布前主動限制本土 AI 模型

訂閱最新分享