Thinking Machines 首發 TML-Interaction-Small:語音 AI 的架構終於對了
重點摘要
Mira Murati 創辦的 Thinking Machines 在 2026 年 5 月 11 日發布 TML-Interaction-Small,延遲 0.40 秒,比 OpenAI 快三倍。這不是靠更快的硬體——而是他們從根本上放棄了管線架構,讓模型自己學會怎麼對話。這個選擇解釋了一切。
2026 年 5 月 11 日,Thinking Machines Lab 發布了他們的第一個模型:TML-Interaction-Small。
延遲 0.40 秒。OpenAI 的 GPT-Realtime-2.0 是 1.18 秒。這個差距根本不是同一個等級。
為什麼?答案跟工程細節沒什麼關係。
語音 AI 一直有個沒人想正視的問題
所有主流語音 AI 的架構都長一樣:語音辨識(ASR)→ 語言模型推理 → 語音合成(TTS)。這條管線跑文字沒問題,但放進真實對話裡,它帶著一個被刻意迴避的前提:系統必須等你說完,才能開始動。
這是設計決策,不是技術限制。整個管線就是按「完成一輪再回應」設計的。
研究者為此打了一堆補丁:靜音偵測(VAD)、打斷閾值、轉換點預測。每個都是人工規則,試圖回答「使用者到底說完了沒?」這個問題。補丁讓系統勉強能用,但打了十年了,語音 AI 說話還是像在唸稿。
Thinking Machines 怎麼做的
創辦人是前 OpenAI 技術長 Mira Murati 和前 OpenAI 研究員 John Schulman。他們的第一個模型沒有選擇在舊架構上繼續打補丁。
TML-Interaction-Small:2760 億參數混合專家模型(MoE),每次只跑 120 億個參數。
關鍵差異:沒有管線。模型每 200 毫秒同時處理音訊、視訊和文字,說話、聆聽、打斷、沉默,全部是模型在 token 層級即時決定的,外部沒有任何規則在控制。
他們把這種架構叫做「互動模型」(interaction model),跟現在滿天飛的「輪詢模型」(turn-based model)做出區隔。兩者的核心差距只有一個:互動能力是訓練出來的,還是工程師手動寫進去的。
架構上他們還加了一層分工:互動模型管即時的對話流,另一個背景模型處理需要時間的推理和工具呼叫。前者像講電話,後者在背景幫你查東西。
數字
| 模型 | 轉換延遲 | FD-bench V1.5 |
|---|---|---|
| TML-Interaction-Small | 0.40 秒 | 77.8 |
| Google Gemini-3.1-flash-live | 0.57 秒 | 約 42 |
| OpenAI GPT-Realtime-2.0 | 1.18 秒 | 46.8 |
0.40 秒大概是人類在對話裡自然換話輪的速度。1.18 秒你會清楚感覺到停頓,開始懷疑對方是不是卡住了。數字的差距看起來不大,體驗差的是整個量級。
FD-bench V1.5 測全雙工互動品質,TML 的 77.8 分幾乎是 OpenAI 的兩倍。在 RepCount-A 和 ProactiveVideoQA 這兩個視覺互動測試裡,TML 能一邊說話一邊觀察使用者的動作並回應——其他模型在同樣任務上不是沒反應就是答錯。
另外 TML 能輸出「反饋信號」,就是那種「我知道了」、「嗯嗯」,不打斷對話流的小插話。在傳統管線架構裡這幾乎做不到,因為系統要等一輪結束才能輸出任何東西。
Sutton 在 2019 年就說了
Richard Sutton 是強化學習這個領域的奠基人之一,2019 年他在個人網站貼了一篇短文:《The Bitter Lesson》。
核心論點一句話:從 AI 研究七十年的歷史看,靠計算規模的通用方法最終永遠打贏靠人工知識的特製方法。
他舉了下棋的例子。幾十年來,研究者把棋手的直覺、位置判斷、開局理論全都寫進程式。這些東西在某個時期確實有效。但 Deep Blue 靠的是搜尋更深、算力更大,不是更好的棋理,最後打敗卡斯帕洛夫。再後來 AlphaGo 靠自我對弈從頭學,幾乎所有人類棋理在那個下午就失效了。
電腦視覺更明顯。手工設計特徵、邊緣偵測、梯度直方圖,2012 年之前是主流。AlexNet 沒有更好的特徵工程,就是規模更大。之後各種手工特徵方法幾乎在三年內絕跡。
語音辨識也走了同樣的路。規則式發音模型、隱馬可夫鏈、精心標定的聲學模型,端對端神經網路出來之後一件一件被淘汰。模型取代工程師做的那些事,靠的是計算,不是對語音更深的理解。
Sutton 的原文結論很直接:「我們必須接受苦澀的教訓:把我們認為人類在想什麼的方式寫進去,長期來看不管用。」
語音 AI 現在站在同一個岔路口。
知識工程為什麼一直輸
傳統語音 AI 處理對話的邏輯,說白了就是:找規律、寫規則。
靜音超過 300 毫秒代表使用者說完了。語調上揚代表問句。說話速度加快代表有情緒。
這些規律在受控環境下能跑,在實際使用裡就垮掉了。有人講話習慣停頓,有人語調一直平、不升調也在問問題,有人口音重,有人手邊很吵,有人想到哪說到哪。規則編碼的是工程師觀察到的「典型對話」,不是對話這件事本身。
更根本的問題:對話的節奏、意圖、情緒,是在整個語境裡動態形成的,沒有一個靜態的判斷標準能覆蓋所有情況。每多加一條規則,就多一個漏洞要補。
TML-Interaction-Small 的做法是不寫規則。讓模型在流動的 200 毫秒串流裡自己推斷下一步,這個能力來自數十億筆真實對話和夠大的計算規模,不是任何人工定義的邏輯。
代價是有的:訓練成本更高,出了問題更難定位,行為不容易解釋。但這就是 Sutton 說的那個取捨——接受短期的麻煩,讓計算去解決人工知識解不掉的問題。
每次有人做這個選擇,幾年後回頭看,大概又是苦澀教訓的另一個腳注。
往後看
TML-Interaction-Small 目前只開放給少數合作夥伴試用,年內計畫更廣泛釋出。Thinking Machines 說後面還有更大的模型,先要解決延遲在更大規模下的問題。
競爭格局上,OpenAI 的 GPT-Realtime-2.0 比 TML 早三天發布,數字直接被蓋掉。Google Gemini Live 在語種覆蓋上仍有優勢,380 種聲音、75 種語言,但速度落後。
語音 AI 的架構路線已經分叉了。繼續在管線上打補丁是一條,重新訓練一個把互動當作核心能力的模型是另一條。這不只是技術選擇,是對 Sutton 那個論點信不信的問題。
Murati 和 Schulman 的答案是 0.40 秒。
相關文章
Fable 5 封禁第七天:White House 要「零越獄」,資安專家說技術上做不到
封禁進入第七天,白宮開出具體條件:Fable 5 復機前必須消滅所有越獄手法。資安研究員一致回應:語言模型護欄的本質決定了這個要求在技術上做不到,而 Dario Amodei 已拒絕政府提出的兩個選項。
美國政府強制停用 Anthropic Fable 5 與 Mythos 5:一個「窄漏洞」引發的全球下線
6 月 12 日傍晚,美商務部以一個「非通用型越獄」為由,下令 Anthropic 停用旗下最強兩款 AI 模型 Fable 5 與 Mythos 5。Anthropic 照辦了,但同時明確表示不認同這個決定,這起事件正在改寫 AI 出口管制的邊界。