Claude Opus 4.8 登場:41 天二度迭代,動態工作流程調度百個平行代理
重點摘要
Anthropic 在 Opus 4.7 發布後僅 41 天再推 Opus 4.8,代理編碼評分升至 69.2%,快速模式定價砍至三分之一,並首度開放動態工作流程讓單一任務調度數百個平行代理。Mythos 級別模型也將在數週內跟進。
Claude Opus 4.8 在 5 月 28 日上線,距離 Opus 4.7 只有 41 天。這個更新節奏在 Anthropic 的歷史上算快,背後是清楚的市場壓力:OpenAI Codex 在代理編碼任務上持續施壓,Google Gemini Flash 系列從成本端競爭。
動態工作流程:百個平行代理跑一個任務
最受關注的新功能是動態工作流程,目前以研究預覽形式在 Claude Code 開放。Claude 接下大型任務後,會自動拆解成數百個平行子代理同時執行,最後整合結果。
Anthropic 的官方描述是:「可以從啟動到合併,完成跨越數十萬行程式碼的整個遷移,以現有測試套件作為完成標準。」這段話用的是生產環境語境,指向企業級代碼遷移這個具體場景。
評分提升與定價調整
幾個具體數字:代理編碼評分從 64.3% 升至 69.2%,多學科推理從 54.7% 升至 57.9%,線上瀏覽代理任務達到 84%,法律代理評測拿下同期最高分。Anthropic 估算 Opus 4.8 漏看程式碼問題的機率降了四倍。
Bridgewater Associates 的測試印證了這個說法。他們指出 Opus 4.8 在分析過程中會主動標出輸入輸出的疑點,這是過去的模型習慣性跳過的行為。
定價方面,標準使用維持每百萬輸入 token 5 美元、輸出 25 美元,和 Opus 4.7 相同。快速模式降幅最大,從每百萬輸入 30 美元、輸出 150 美元,調降至 10 美元和 50 美元。頻繁跑代理循環的開發者,這個調整的成本效果相當直接。
誠實度改造
這個版本在自我評估上做了調整。Anthropic 說 Opus 4.8 遇到不確定的情況時會直接說出來,有疑慮的中間結果不再被平整呈現。
在長時間代理任務裡,模型有把握地犯錯是相當常見的失敗模式。把這個點修掉,比提升平均評分數字更直接影響生產可靠性。
迭代週期在加速
Opus 4.7 上市時的用戶反應並不算熱烈,41 天後推 4.8 說明了一些事。Anthropic 同時透露,Mythos 級別的模型預計在「數週內」開放給一般用戶,前提是安全防護機制到位。
Mythos 的能力目前仍在限制存取狀態,Project Glasswing 的安全測試結果決定這個時間點。Anthropic 上週以 9650 億美元估值完成 650 億美元 H 輪融資,這個資金量支撐了更密集的迭代節奏。
延伸閱讀:
資料來源:
- Introducing Claude Opus 4.8(Anthropic, 2026-05-28)
- Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool(TechCrunch, 2026-05-28)
如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。
相關文章
Claude Fable 5 正式上線:Anthropic 第一款 Mythos 級公開模型
6 月 9 日,Anthropic 正式發布 Fable 5,第一款對外開放的 Mythos 級別模型。分析評測破 90%,比 Opus 4.8 高出 10 分;SWE-Bench 80.3%;定價每百萬 token $10/$50,並內建安全分類器將高風險請求路由至 Opus 4.8 做為降階備援。
Project Fetch Phase 2:Claude Opus 4.7 寫機器狗程式快了 37 倍,球還是沒撿到
Anthropic 的 Project Fetch Phase 2 顯示,Claude Opus 4.7 自主撰寫四足機器人控制程式碼的速度比無 AI 輔助的人類快了 37.7 倍,程式碼量也僅需人類的十分之一。機器狗最終沒有撿到球。這個結果既是里程碑,也是邊界的精準標示。