DiffusionGemma als Open Source: Google überträgt Bild-Diffusion auf Sprachmodelle mit 4-facher Inferenzgeschwindigkeit
Kurzfassung
Google DeepMind hat am 10. Juni 2026 DiffusionGemma 26B-A4B als Open Source veröffentlicht. Bild-Diffusionstechnik für Text: 15–20 Token pro Forward Pass, 1000+ Tokens/Sek. auf H100, 4× schneller als vergleichbare autoregressive Modelle. Kompromiss: geringere Ausgabequalität als Standard-Gemma 4.
Google DeepMind hat DiffusionGemma 26B-A4B am 10. Juni 2026 auf Hugging Face unter Apache-2.0-Lizenz veröffentlicht. Download, Anpassung und kommerzielle Nutzung sind für jeden frei zugänglich. In Leistungsrankings belegt das Modell keinen Spitzenplatz. Die Architektur ist der eigentliche Grund, genauer hinzuschauen: Sie überträgt die Logik der Bilddiffusion auf die Textgenerierung und ersetzt den bekannten autoregressiven Token-für-Token-Prozess durch blockweise parallele Aktualisierungen.
Geschwindigkeitszahlen
Jeder Forward Pass erzeugt 15 bis 20 Token gleichzeitig. Ein herkömmliches autoregressive Modell erzeugt eines. Auf einer NVIDIA H100 entspricht das 1.000+ Token pro Sekunde. Auf einer Consumer-GPU, der GeForce RTX 5090, sind es 700+ Token pro Sekunde. Googles offizielle Angabe: 4-facher Geschwindigkeitsvorteil gegenüber autoregressiven Modellen vergleichbarer Größe.
Die Architektur ist ein 26-Milliarden-Parameter-Mixture-of-Experts-Modell, das bei der Inferenz nur 3,8 Milliarden Parameter aktiviert und 8 aktive Experten aus einem Pool von 128 auswählt. Zusammen mit dem NVFP4-Zahlenformat bleibt der Speicherbedarf deutlich unter dem, was die reine Parameterzahl vermuten lässt.
Wie Textdiffusion funktioniert
Bilddiffusionsmodelle starten mit Rauschen und entfernen es schrittweise, um ein Zielbild zu erzeugen. DiffusionGemma wendet dieselbe Logik auf Sprache an: Ein Antwortrahmen wird mit zufälligen Token gefüllt, dann werden in jeder Iteration die unsichersten Positionen durch kontextuell passende Wörter ersetzt. Jede Iteration aktualisiert den gesamten Block gleichzeitig.
Die strukturelle Schwäche autoregressiver Generierung liegt in der sequenziellen Abhängigkeit: Jeder Schritt baut auf dem vorherigen auf, echte Parallelisierung ist kaum möglich. Blockweise Diffusion umgeht diese Abhängigkeit, indem sie das gesamte Generierungsfenster als ein einziges Verfeinerungsziel behandelt. DiffusionGemma unterstützt Kontextfenster bis zu 256K Token.
Kompromisse und Hintergrund
Geschwindigkeit hat ihren Preis. Die Ausgabequalität liegt unter der des Standard-Gemma 4, besonders bei Aufgaben, die präzises Schlussfolgern erfordern. Google positioniert dieses Modell als experimentell.
Die Forschungsgeschichte reicht bis Mai 2025 zurück, als Google ein experimentelles Gemini-Diffusion-Modell veröffentlichte, das getestet, aber nie öffentlich ausgeliefert wurde. DiffusionGemma baut diese Arbeit auf der Gemma-4-26B-A4B-Architektur neu auf und stellt sie als offene Gewichte zur Verfügung. NVIDIAs NIM-Plattform bietet das Modell ebenfalls kostenlos zur Inferenz an.
Die Open-Source-Entscheidung ist bemerkenswert. Ein Modell mit einem klaren Durchsatzvorteil gegenüber bestehenden Alternativen liegt jetzt unter einer permissiven Lizenz in den Händen der Forschungsgemeinschaft. Textdiffusion war 2025 noch eine Nischenrichtung. Mit konkreten Benchmarkzahlen und einem herunterladbaren Modell ändert sich die Diskussion.
Das Modell akzeptiert Text-, Bild- und Video-Eingaben, unterstützt 35+ Sprachen und Kontextfenster bis zu 256K Token.
Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.
Quellen
Verwandte Artikel
Das DNS für KI-Agenten: Google und 11 Unternehmen starten ARD-Offenstandard
Google, Microsoft und Hugging Face haben am 17. Juni 2026 gemeinsam die ARD-Spezifikation (Agentic Resource Discovery) veröffentlicht. KI-Agenten können damit zur Laufzeit per natürlicher Sprache Werkzeuge entdecken — wie DNS fürs Web, aber für die Agentenwelt.
Google Antigravity CLI startet: Gemini CLI wird eingestellt
Google Antigravity CLI ersetzt Gemini CLI am 18. Juni und sperrt kostenlose Nutzer sofort aus. Das ehemals quelloffene Tool wird proprietär, der KI-Coding-Markt vollständig geschlossen.