Anthropic 呼籲全球暫停 AI 開發:遞迴自我改良的臨界點已逼近
重點摘要
Claude 完成任務的時間跨度每四個月翻倍,Anthropic 工程師的程式碼產出已是五年前的八倍。這家即將 IPO 的公司說:在失控之前,世界需要一個暫停機制。
2026 年 6 月 4 日,Anthropic 的研究政策團隊發表了一篇名為《When AI builds itself》的文章。論點很直白:AI 系統正在逼近一個可以自主設計並訓練下一代模型的門檻,而現有的政策架構完全沒有為此準備好。
Anthropic 給這個現象一個名字,遞迴自我改良,也就是 AI 系統開始能夠自主推進自身的訓練流程,形成不再需要人類工程師持續介入的正向迴圈。這篇文章由 Anthropic 內部研究主管 Marina Favaro 與政策主管 Jack Clark 聯署,他們提出的不只是警告,而是一個實際請求:頂尖 AI 實驗室應該共同建立驗證機制,確保當門檻逼近時,各方能夠協調暫停或減速,而非各自盲目衝刺。
數字背後的加速曲線
Anthropic 公開了一組 Claude 歷代模型的任務完成時間數據,清楚勾勒出這條加速軌跡。2024 年的 Claude Opus 3 可以獨立完成大約 4 分鐘的人類任務;到 2025 年,Claude Sonnet 3.7 能處理約 90 分鐘的任務;今年的 Claude Opus 4.6 已能自主執行需要 12 小時的複雜工作。
依照目前每四個月翻倍的速度推算,2027 年的模型處理「需要數週的專業工作」並非空談。
Anthropic 內部的生產力數字同樣值得注意。公司工程師目前每季的程式碼產出,是 2021 至 2025 年平均水準的 8 倍。Claude 自己寫的程式碼,從 2025 年底的「略遜於人類」,到 2026 年初已達到「與人類水準相當」的狀態。
為什麼這件事很難驗證
Favaro 和 Clark 在文中坦承,即便各方同意建立暫停機制,執行面的挑戰也相當棘手。核武軍備控制之所以能運作,部分原因是核設施有物理跡象,衛星可以拍到,核查人員可以進場驗證。
AI 訓練沒有這樣的物理特徵。全球散佈的私人資料中心、租用的雲端算力、各地不同的法律規範,要達到任何有意義的驗證,需要一套全新的國際框架。Clark 說的比較直接:「追蹤去中心化算力資源,比監控核設施困難得多。」
Anthropic 的提案分三個層次:一是在 AI 實驗室之間建立開發進度的驗證機制;二是召集政策制定者與研究者共同討論觸發暫停的條件;三是如果其他頂尖實驗室能可驗證地同意,Anthropic 承諾暫停自身的前沿開發。
商業現實與安全立場的張力
這篇文章發布的時間點相當微妙。就在三天前,Anthropic 剛以 9650 億美元的估值完成 650 億美元融資,同步遞交了 IPO 申請。季度營收超過百億美元,企業客戶超過千家。
一家正衝向近兆美元估值的公司,同步主張全球應建立 AI 開發暫停機制,這個組合引發了外界的質疑。科技分析師 Rob Enderle 直說,這種全球協調「在現實上幾乎無法執行」,在他看來更像是針對監管環境的策略性公關定位。
Anthropic 的承諾帶了明確的前提條件:「其他人先做,我們跟」。這個邏輯在商業上幾乎沒有立即成本,但也意味著在沒有其他實驗室跟進的情況下,Anthropic 不必單邊停下來。值得注意的是,Anthropic 的安全導向定位在企業市場一直是明顯的差異化籌碼,Claude Code 的企業滲透率持續領先。這份呼籲無論能否落地為政策,都強化了這個品牌定位。
真正的問題,是遞迴自我改良的門檻何時真正到來,以及到時候全球的 AI 治理架構是否已經有任何準備。依照目前的立法進度,答案並不樂觀。
如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。
相關閱讀:
相關文章
Anthropic 指控阿里巴巴「最大規模蒸餾攻擊」Claude:2880 萬次對話、估計成本 $8.6 萬,鎖定最值錢的能力
Anthropic 向美國參議院指控阿里巴巴以 2.5 萬個假帳號對 Claude 發動史上最大規模蒸餾攻擊,六週內完成 2880 萬次對話,定點蒸餾 Claude 最值錢的軟體工程與自主代理能力。攻擊成本可能低於 $9 萬,卻撬動了數億美元的模型訓練競爭優勢。
Project Fetch Phase 2:Claude Opus 4.7 寫機器狗程式快了 37 倍,球還是沒撿到
Anthropic 的 Project Fetch Phase 2 顯示,Claude Opus 4.7 自主撰寫四足機器人控制程式碼的速度比無 AI 輔助的人類快了 37.7 倍,程式碼量也僅需人類的十分之一。機器狗最終沒有撿到球。這個結果既是里程碑,也是邊界的精準標示。