← 返回文章列表

Fable 5 封禁第七天:White House 要「零越獄」,資安專家說技術上做不到

Nils Liu
GenAI 新聞觀察 AI Policy Anthropic LLM AI Safety

重點摘要

封禁進入第七天,白宮開出具體條件:Fable 5 復機前必須消滅所有越獄手法。資安研究員一致回應:語言模型護欄的本質決定了這個要求在技術上做不到,而 Dario Amodei 已拒絕政府提出的兩個選項。

Fable 5 封禁第七天:White House 要「零越獄」,資安專家說技術上做不到

封禁進入第七天。白宮對 Fable 5 復機開出的條件這周開始變得具體:重新上架前,Anthropic 必須確保沒有任何越獄手法能夠繞過模型的安全護欄,不管是現在已知的,還是未來可能出現的。資安研究員的回應幾乎沒有分歧,這個要求在技術上做不到。

一個程式碼審查請求觸發了出口管制

故事要從六月十二日說起。商務部長 Howard Lutnick 當天下午給了 Anthropic 大約九十分鐘,要求立即停用 Fable 5 和 Mythos 5,禁止所有外國籍人士存取。

觸發這個決定的是一個特定的越獄方式。研究人員要求 Fable 5 讀取含有已知漏洞的程式碼庫,協助「修復」其中的安全問題,模型在執行任務途中切換進了 Mythos 的漏洞分析模式,隨後同樣的分析框架可以被套用在攻擊用的利用腳本上。政府把這視為嚴重的出口控制風險,加上 SK Telecom 透過 Project Glasswing 的存取記錄和其與中國投資方的關係浮上檯面,整件事快速升級。

Anthropic 照辦,但同時發表聲明,說自己「不認同」一個窄型越獄就構成停用已部署商業模型的理由。

Dario 兩個選項都不選

White House AI 政策顧問、PCAST 共同主席 David Sacks 在 X 上公開描述了談判的過程。他說,政府給了 Anthropic 兩條路:修復越獄,或者主動下架 Fable 5。Dario Amodei 把兩個選項都拒絕了。

Sacks 的描述顯示政府本來預期這是容易解決的事,修好就能快速恢復。Dario 的拒絕讓局面複雜了。

Dario 的邏輯有脈絡可循。Anthropic 在聲明中明確說過:如果一個「窄型越獄」就足以觸發強制停用,這個標準套用到任何前沿語言模型都能成立,等於間接要求業界暫停所有高能力模型的部署。公司補充說,這個特定的越獄窄、不具通用性,GPT-5.5 一樣有對應能力,封一個出口,其他管道還在。

「零越獄」為什麼在技術上做不到

六月十八日,白宮的條件在報導中變得更明確:復機的前提是 Fable 5 必須能夠阻止所有越獄嘗試,包含現在已知的和未來可能出現的。

資安研究員的意見是一面倒。

核心問題是語言模型的架構。護欄是語言限制,疊加在模型本身持有的知識和推理能力之上。模型本身還在那裡,知識還在那裡,護欄的作用是拒絕被識別為有風險的請求類型。越獄的本質就是找到一個提示詞,讓模型判斷這個請求不在護欄管轄的範圍內,或者讓它切換到不同的任務框架。

已知的防護方案各有侷限。RLHF 精調對常見越獄有效,但提高了對正當請求的拒絕率;Constitutional AI 訓練在角色扮演型攻擊前容易失守;對抗性訓練只保護已知模式,新型提示詞可以繞過;輸入分類器同樣只認識已見過的手法。更根本的問題是,未來的 AI 系統可以自動搜索提示空間,速度遠超人工紅隊測試的能力。

Anthropic 在與商務部的往來中說得更直白:如果「保證零越獄」是復機門檻,這個要求「實際上等同於讓所有前沿模型廠商停止新模型的部署」。

第七天的快照

六月十七到十八日,Anthropic 在首爾開設了在亞太地區的第三個辦公室,時間點就落在封禁進行中。國際業務執行總監 Chris Ciauri 在開幕場合說,他對 Fable 5 和 Mythos 5 在「未來幾天內恢復存取」抱有很高的信心。這是迄今為止 Anthropic 高階主管給出的最具體時間框架。

同步接近的還有幾個時間節點:六月二十日,Fable 5 付費用戶的退款申請截止;六月二十二日,受封禁影響的訂閱者免費試用窗口關閉。壓力開始從談判桌傳到付費用戶端。

韓國企業客戶沒有等。NAVER 部署了 Claude Code,三星 SDS 和 LG CNS 接入了 Claude Cowork 和 Code,Nexon 用在遊戲開發,Hanwha Solutions 透過 AWS Bedrock 全球部署。這些都是受封禁影響較小的模型版本,不是 Fable 5 或 Mythos 5。

政策先例的問題

出口管制的歷史工具是硬體,晶片、精密設備、飛彈零件。把它應用到雲端部署的語言模型,法律和技術判斷框架都還沒跟上。

這場談判的結果,不管哪個方向,都會設下先例。如果政府接受「非零越獄風險」作為合規框架,等於承認前沿 AI 的能力邊界和安全邊界之間存在必然的張力,政策必須在這個張力裡找平衡。如果堅持零越獄,下一個問題是:誰來核驗,怎麼核驗,週期多長,這些都沒有答案。

AI 政策研究者 Dean Ball 說這個決定「根本是在搞笑」,川普政府一面積極推動美國 AI 技術出口,一面因為一個窄型越獄把盟友擋在外面,邏輯對不上。資安研究員的論點也值得看:高資源的攻擊者不需要等 Fable 5 恢復,他們有其他替代方案,包括中國的開源模型和其他未受出口管制的系統。封禁的不對稱效果,防守方承受限制,攻擊方繼續移動。

Dario Amodei 拒絕政府的兩個選項,也許是在保持一個技術上誠實的立場:他沒有辦法兌現政府想要的保證。接下來幾天的協商結果,決定這個誠實是否有代價。

如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。


來源

延伸閱讀

訂閱最新分享

加入電子報,第一時間獲取關於金融 AI Agent 實戰與架構設計的最新文章。不訂閱你會慢別人一個週期!

絕不發送垃圾信。隨時皆可取消訂閱。