DiffusionGemma 開源:Google 把影像擴散技術搬進語言模型,推理速度快 4 倍
重點摘要
Google DeepMind 在 6 月 10 日開源 DiffusionGemma 26B-A4B,把影像擴散技術搬進語言模型:每次前向傳播同時生成 15–20 個 token,H100 上跑出每秒 1000+ tokens,比同尺寸自回歸模型快 4 倍。速度有代價:輸出品質低於標準 Gemma 4。
Google DeepMind 在 6 月 10 日把 DiffusionGemma 26B-A4B 掛上 Hugging Face,授權 Apache 2.0,任何人都可以下載、修改、商用。論性能排名,這個模型拿不到第一,但技術路線和現有大型語言模型都不一樣:它把影像擴散的邏輯搬進語言生成,生成方式從序列推進改成整塊並行替換。
速度數字
每次前向傳播,DiffusionGemma 同時生成 15 到 20 個 token。傳統自回歸模型每次只產一個。在 NVIDIA H100 上,這個差異換算成每秒 1000+ 個 token;跑在消費端的 RTX 5090 上,也有 700 tokens/秒。官方數字是比同等規模的自回歸模型快 4 倍。
架構是 26B 參數的混合專家模型,但每次推理只啟動 3.8B,從 128 個專家裡選 8 個。用 NVFP4 數值格式,對顯示記憶體的需求比實際參數量輕得多。
文字擴散的邏輯
影像擴散模型從雜訊開始,一輪一輪把圖片去噪出來。DiffusionGemma 把這個邏輯搬進語言生成:先在回應框架裡填滿隨機詞彙,再透過迭代把位置不確定的 token 替換成合理的詞,每一輪整個文字塊同時更新。
傳統自回歸模型的瓶頸在於每一步生成都依賴前一步的輸出,序列依賴讓並行化幾乎無從下手。文字擴散把這個依賴關係改成塊狀更新,在長上下文場景下吞吐量明顯上升。DiffusionGemma 最長支援 256K token 的上下文。
代價與背景
速度有代價。相比標準 Gemma 4,DiffusionGemma 的輸出品質偏低,在需要精確推理的任務上差距更明顯。Google 自己也把它定位成實驗性模型。
這條路線有根。2025 年 5 月,Google 曾發布過實驗版 Gemini Diffusion,測試後沒有正式推出。這次 DiffusionGemma 是在 Gemma 4 26B-A4B 架構上重建,打包成開源權重放出來。NVIDIA NIM 平台也提供免費調用。
開源這個動作比較值得關注。Google 把一個在推理速度上有明顯優勢的模型直接放進公開生態,研究者和工程師現在可以直接拿來改。文字擴散這個技術路線在 2025 年還算邊緣,進入 2026 年之後,已經有足夠多的具體數字讓人認真看待。
模型支援文字、圖片、影片輸入,35 種以上語言,上下文最長 256K token。
如果這篇對你有幫助,訂閱電子報 可以第一時間收到 AI PM 實戰洞察與 GenAI 落地案例。
相關資料
相關文章
AI 代理的「DNS」誕生:Google 聯合 11 家大廠推出 ARD 開放標準
Google、Microsoft、Hugging Face 聯合 11 家科技大廠,在 6 月 17 日發布 ARD(Agentic Resource Discovery)開放規格。AI 代理從此能用自然語言查詢,在執行期動態找到正確工具,就像 DNS 讓瀏覽器自動找到伺服器,結束「手動安裝再使用」的時代。
Google Antigravity CLI 正式上線:Gemini CLI 今日停服
Google Antigravity CLI 6 月 18 日正式取代 Gemini CLI,免費用戶即時失去訪問。Apache 2.0 開源工具在一年多後走入歷史,AI 編程工具市場全面進入閉源時代。