DiffusionGemma 開源：Google 把影像擴散技術搬進語言模型，推理速度快 4 倍

Google DeepMind 在 6 月 10 日把 DiffusionGemma 26B-A4B 掛上 Hugging Face，授權 Apache 2.0，任何人都可以下載、修改、商用。論性能排名，這個模型拿不到第一，但技術路線和現有大型語言模型都不一樣：它把影像擴散的邏輯搬進語言生成，生成方式從序列推進改成整塊並行替換。

速度數字

每次前向傳播，DiffusionGemma 同時生成 15 到 20 個 token。傳統自回歸模型每次只產一個。在 NVIDIA H100 上，這個差異換算成每秒 1000+ 個 token；跑在消費端的 RTX 5090 上，也有 700 tokens/秒。官方數字是比同等規模的自回歸模型快 4 倍。

架構是 26B 參數的混合專家模型，但每次推理只啟動 3.8B，從 128 個專家裡選 8 個。用 NVFP4 數值格式，對顯示記憶體的需求比實際參數量輕得多。

文字擴散的邏輯

影像擴散模型從雜訊開始，一輪一輪把圖片去噪出來。DiffusionGemma 把這個邏輯搬進語言生成：先在回應框架裡填滿隨機詞彙，再透過迭代把位置不確定的 token 替換成合理的詞，每一輪整個文字塊同時更新。

傳統自回歸模型的瓶頸在於每一步生成都依賴前一步的輸出，序列依賴讓並行化幾乎無從下手。文字擴散把這個依賴關係改成塊狀更新，在長上下文場景下吞吐量明顯上升。DiffusionGemma 最長支援 256K token 的上下文。

代價與背景

速度有代價。相比標準 Gemma 4，DiffusionGemma 的輸出品質偏低，在需要精確推理的任務上差距更明顯。Google 自己也把它定位成實驗性模型。

這條路線有根。2025 年 5 月，Google 曾發布過實驗版 Gemini Diffusion，測試後沒有正式推出。這次 DiffusionGemma 是在 Gemma 4 26B-A4B 架構上重建，打包成開源權重放出來。NVIDIA NIM 平台也提供免費調用。

開源這個動作比較值得關注。Google 把一個在推理速度上有明顯優勢的模型直接放進公開生態，研究者和工程師現在可以直接拿來改。文字擴散這個技術路線在 2025 年還算邊緣，進入 2026 年之後，已經有足夠多的具體數字讓人認真看待。

模型支援文字、圖片、影片輸入，35 種以上語言，上下文最長 256K token。

如果這篇對你有幫助，訂閱電子報可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。

DiffusionGemma 開源：Google 把影像擴散技術搬進語言模型，推理速度快 4 倍

速度數字

文字擴散的邏輯

代價與背景

相關資料

相關文章

AI 代理的「DNS」誕生：Google 聯合 11 家大廠推出 ARD 開放標準

Google Antigravity CLI 正式上線：Gemini CLI 今日停服

速度數字

文字擴散的邏輯

代價與背景

相關資料

相關文章

AI 代理的「DNS」誕生：Google 聯合 11 家大廠推出 ARD 開放標準

Google Antigravity CLI 正式上線：Gemini CLI 今日停服

訂閱最新分享