Thinking Machines 首發 TML-Interaction-Small：語音 AI 的架構終於對了

2026 年 5 月 11 日，Thinking Machines Lab 發布了他們的第一個模型：TML-Interaction-Small。

延遲 0.40 秒。OpenAI 的 GPT-Realtime-2.0 是 1.18 秒。這個差距根本不是同一個等級。

為什麼？答案跟工程細節沒什麼關係。

語音 AI 一直有個沒人想正視的問題

所有主流語音 AI 的架構都長一樣：語音辨識（ASR）→ 語言模型推理 → 語音合成（TTS）。這條管線跑文字沒問題，但放進真實對話裡，它帶著一個被刻意迴避的前提：系統必須等你說完，才能開始動。

這是設計決策，不是技術限制。整個管線就是按「完成一輪再回應」設計的。

研究者為此打了一堆補丁：靜音偵測（VAD）、打斷閾值、轉換點預測。每個都是人工規則，試圖回答「使用者到底說完了沒？」這個問題。補丁讓系統勉強能用，但打了十年了，語音 AI 說話還是像在唸稿。

Thinking Machines 怎麼做的

創辦人是前 OpenAI 技術長 Mira Murati 和前 OpenAI 研究員 John Schulman。他們的第一個模型沒有選擇在舊架構上繼續打補丁。

TML-Interaction-Small：2760 億參數混合專家模型（MoE），每次只跑 120 億個參數。

關鍵差異：沒有管線。模型每 200 毫秒同時處理音訊、視訊和文字，說話、聆聽、打斷、沉默，全部是模型在 token 層級即時決定的，外部沒有任何規則在控制。

他們把這種架構叫做「互動模型」（interaction model），跟現在滿天飛的「輪詢模型」（turn-based model）做出區隔。兩者的核心差距只有一個：互動能力是訓練出來的，還是工程師手動寫進去的。

架構上他們還加了一層分工：互動模型管即時的對話流，另一個背景模型處理需要時間的推理和工具呼叫。前者像講電話，後者在背景幫你查東西。

數字

模型	轉換延遲	FD-bench V1.5
TML-Interaction-Small	0.40 秒	77.8
Google Gemini-3.1-flash-live	0.57 秒	約 42
OpenAI GPT-Realtime-2.0	1.18 秒	46.8

0.40 秒大概是人類在對話裡自然換話輪的速度。1.18 秒你會清楚感覺到停頓，開始懷疑對方是不是卡住了。數字的差距看起來不大，體驗差的是整個量級。

FD-bench V1.5 測全雙工互動品質，TML 的 77.8 分幾乎是 OpenAI 的兩倍。在 RepCount-A 和 ProactiveVideoQA 這兩個視覺互動測試裡，TML 能一邊說話一邊觀察使用者的動作並回應——其他模型在同樣任務上不是沒反應就是答錯。

另外 TML 能輸出「反饋信號」，就是那種「我知道了」、「嗯嗯」，不打斷對話流的小插話。在傳統管線架構裡這幾乎做不到，因為系統要等一輪結束才能輸出任何東西。

Sutton 在 2019 年就說了

Richard Sutton 是強化學習這個領域的奠基人之一，2019 年他在個人網站貼了一篇短文：《The Bitter Lesson》。

核心論點一句話：從 AI 研究七十年的歷史看，靠計算規模的通用方法最終永遠打贏靠人工知識的特製方法。

他舉了下棋的例子。幾十年來，研究者把棋手的直覺、位置判斷、開局理論全都寫進程式。這些東西在某個時期確實有效。但 Deep Blue 靠的是搜尋更深、算力更大，不是更好的棋理，最後打敗卡斯帕洛夫。再後來 AlphaGo 靠自我對弈從頭學，幾乎所有人類棋理在那個下午就失效了。

電腦視覺更明顯。手工設計特徵、邊緣偵測、梯度直方圖，2012 年之前是主流。AlexNet 沒有更好的特徵工程，就是規模更大。之後各種手工特徵方法幾乎在三年內絕跡。

語音辨識也走了同樣的路。規則式發音模型、隱馬可夫鏈、精心標定的聲學模型，端對端神經網路出來之後一件一件被淘汰。模型取代工程師做的那些事，靠的是計算，不是對語音更深的理解。

Sutton 的原文結論很直接：「我們必須接受苦澀的教訓：把我們認為人類在想什麼的方式寫進去，長期來看不管用。」

語音 AI 現在站在同一個岔路口。

知識工程為什麼一直輸

傳統語音 AI 處理對話的邏輯，說白了就是：找規律、寫規則。

靜音超過 300 毫秒代表使用者說完了。語調上揚代表問句。說話速度加快代表有情緒。

這些規律在受控環境下能跑，在實際使用裡就垮掉了。有人講話習慣停頓，有人語調一直平、不升調也在問問題，有人口音重，有人手邊很吵，有人想到哪說到哪。規則編碼的是工程師觀察到的「典型對話」，不是對話這件事本身。

更根本的問題：對話的節奏、意圖、情緒，是在整個語境裡動態形成的，沒有一個靜態的判斷標準能覆蓋所有情況。每多加一條規則，就多一個漏洞要補。

TML-Interaction-Small 的做法是不寫規則。讓模型在流動的 200 毫秒串流裡自己推斷下一步，這個能力來自數十億筆真實對話和夠大的計算規模，不是任何人工定義的邏輯。

代價是有的：訓練成本更高，出了問題更難定位，行為不容易解釋。但這就是 Sutton 說的那個取捨——接受短期的麻煩，讓計算去解決人工知識解不掉的問題。

每次有人做這個選擇，幾年後回頭看，大概又是苦澀教訓的另一個腳注。

往後看

TML-Interaction-Small 目前只開放給少數合作夥伴試用，年內計畫更廣泛釋出。Thinking Machines 說後面還有更大的模型，先要解決延遲在更大規模下的問題。

競爭格局上，OpenAI 的 GPT-Realtime-2.0 比 TML 早三天發布，數字直接被蓋掉。Google Gemini Live 在語種覆蓋上仍有優勢，380 種聲音、75 種語言，但速度落後。

語音 AI 的架構路線已經分叉了。繼續在管線上打補丁是一條，重新訓練一個把互動當作核心能力的模型是另一條。這不只是技術選擇，是對 Sutton 那個論點信不信的問題。

Murati 和 Schulman 的答案是 0.40 秒。

Thinking Machines 首發 TML-Interaction-Small：語音 AI 的架構終於對了

語音 AI 一直有個沒人想正視的問題

Thinking Machines 怎麼做的

數字

Sutton 在 2019 年就說了

知識工程為什麼一直輸

往後看

相關文章

Fable 5 封禁第七天：White House 要「零越獄」，資安專家說技術上做不到

美國政府強制停用 Anthropic Fable 5 與 Mythos 5：一個「窄漏洞」引發的全球下線

語音 AI 一直有個沒人想正視的問題

Thinking Machines 怎麼做的

數字

Sutton 在 2019 年就說了

知識工程為什麼一直輸

往後看

相關文章

Fable 5 封禁第七天：White House 要「零越獄」，資安專家說技術上做不到

美國政府強制停用 Anthropic Fable 5 與 Mythos 5：一個「窄漏洞」引發的全球下線

訂閱最新分享