← 返回文章列表

Claude Opus 4.8 登場:41 天二度迭代,動態工作流程調度百個平行代理

Nils Liu
Anthropic Claude AI模型 代理AI 新聞觀察

重點摘要

Anthropic 在 Opus 4.7 發布後僅 41 天再推 Opus 4.8,代理編碼評分升至 69.2%,快速模式定價砍至三分之一,並首度開放動態工作流程讓單一任務調度數百個平行代理。Mythos 級別模型也將在數週內跟進。

Claude Opus 4.8 登場:41 天二度迭代,動態工作流程調度百個平行代理

Claude Opus 4.8 在 5 月 28 日上線,距離 Opus 4.7 只有 41 天。這個更新節奏在 Anthropic 的歷史上算快,背後是清楚的市場壓力:OpenAI Codex 在代理編碼任務上持續施壓,Google Gemini Flash 系列從成本端競爭。

動態工作流程:百個平行代理跑一個任務

最受關注的新功能是動態工作流程,目前以研究預覽形式在 Claude Code 開放。Claude 接下大型任務後,會自動拆解成數百個平行子代理同時執行,最後整合結果。

Anthropic 的官方描述是:「可以從啟動到合併,完成跨越數十萬行程式碼的整個遷移,以現有測試套件作為完成標準。」這段話用的是生產環境語境,指向企業級代碼遷移這個具體場景。

評分提升與定價調整

幾個具體數字:代理編碼評分從 64.3% 升至 69.2%,多學科推理從 54.7% 升至 57.9%,線上瀏覽代理任務達到 84%,法律代理評測拿下同期最高分。Anthropic 估算 Opus 4.8 漏看程式碼問題的機率降了四倍。

Bridgewater Associates 的測試印證了這個說法。他們指出 Opus 4.8 在分析過程中會主動標出輸入輸出的疑點,這是過去的模型習慣性跳過的行為。

定價方面,標準使用維持每百萬輸入 token 5 美元、輸出 25 美元,和 Opus 4.7 相同。快速模式降幅最大,從每百萬輸入 30 美元、輸出 150 美元,調降至 10 美元和 50 美元。頻繁跑代理循環的開發者,這個調整的成本效果相當直接。

誠實度改造

這個版本在自我評估上做了調整。Anthropic 說 Opus 4.8 遇到不確定的情況時會直接說出來,有疑慮的中間結果不再被平整呈現。

在長時間代理任務裡,模型有把握地犯錯是相當常見的失敗模式。把這個點修掉,比提升平均評分數字更直接影響生產可靠性。

迭代週期在加速

Opus 4.7 上市時的用戶反應並不算熱烈,41 天後推 4.8 說明了一些事。Anthropic 同時透露,Mythos 級別的模型預計在「數週內」開放給一般用戶,前提是安全防護機制到位。

Mythos 的能力目前仍在限制存取狀態,Project Glasswing 的安全測試結果決定這個時間點。Anthropic 上週以 9650 億美元估值完成 650 億美元 H 輪融資,這個資金量支撐了更密集的迭代節奏。


延伸閱讀:

資料來源:

如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。

訂閱最新分享

加入電子報,第一時間獲取關於金融 AI Agent 實戰與架構設計的最新文章。不訂閱你會慢別人一個週期!

絕不發送垃圾信。隨時皆可取消訂閱。