← 返回文章列表

Mira Murati 的 Thinking Machine Lab:AI 確定性推理的突破

Nils Liu
新聞觀察 Blog GenAI 系統架構
Mira Murati 的 Thinking Machine Lab:AI 確定性推理的突破

Thinking Machine Lab (Mira Murati創立的startup,在還沒有任何產品和工作方向時,光是Mira Murati的號召即獲得20億美元融資,估值百億美元)最近(9/10)發表了一篇文章,探討一個我們已知的問題:

「把AI模型的temperature設為0就能得到完全一致的結果嗎?答案是否,但根本性的原因是什麼?」

當用同樣的提示詞對所謂「確定性」的AI模型跑1000次測試時,會驚訝地發現竟然會得到數十種不同的輸出結果,這不是因為模型本身的隨機性,而是因為伺服器在處理批次請求時的方式會影響最終結果

這個問題的影響比想像中嚴重,在進行AI模型評估時,基準測試的分數會因為伺服器負載不同而產生高達5%的變化,這讓我們很難準確判斷模型的真實表現,對企業來說更麻煩的是,當客戶回報某個特定問題時,開發團隊往往無法重現相同的情況,因為批次處理的配置已經改變了

對於需要符合法規要求的行業來說,這種不一致性更是致命的,他們無法保證AI系統在審計時會表現出相同的行為模式,此外,許多公司投入大量資源進行A/B測試和模型比較,但這些結果現在看來都可能被這種隱藏的變異性所汙染

前OpenAI技術長Mira Murati創立的Thinking Machines Lab深入研究了這個問題,他們發現關鍵在於三個核心運算:標準化、矩陣乘法和注意力機制,當批次大小發生變化時,這些運算的數值計算就會產生微小但關鍵的差異,最終導致輸出結果的不同

他們的解決方案是開發出批次不變的版本,能夠確保無論批次如何組合,運算結果都保持一致,經過測試,這個方法確實能讓同樣的輸入產生完全相同的輸出,實現真正的確定性推理

當然,這個解決方案也有代價,確定性推理的速度大約比現有方法慢了60%,但對於那些需要絕對一致性的應用場景來說,這個效能損失是值得的

想要知道系統是否受到影響,可以做個簡單測試:用同一個提示詞跑100次,看看會得到多少種不同的結果,對於關鍵性應用,值得考慮採用這種批次不變的核心技術,儘管會有效能成本,對於一般使用者,也應該開始要求AI服務提供商提供確定性模式的選項

我們一直把這種不穩定的行為當作AI系統無法避免的特性,但現在看來這其實是可以解決的技術問題,隨著技術的持續優化,相信這60%的效能成本在不久的將來也會進一步降低,對於需要可靠性勝過速度的應用場景來說,這個發現可能會改變遊戲規則

💬 延伸閱讀: 2025 年度回顧與未來展望

訂閱最新分享

加入電子報,第一時間獲取關於金融 AI Agent 實戰與架構設計的最新文章。不訂閱你會慢別人一個週期!

絕不發送垃圾信。隨時皆可取消訂閱。