DiffusionGemma als Open Source: Google überträgt Bild-Diffusion auf Sprachmodelle mit 4-facher Inferenzgeschwindigkeit

Google DeepMind hat DiffusionGemma 26B-A4B am 10. Juni 2026 auf Hugging Face unter Apache-2.0-Lizenz veröffentlicht. Download, Anpassung und kommerzielle Nutzung sind für jeden frei zugänglich. In Leistungsrankings belegt das Modell keinen Spitzenplatz. Die Architektur ist der eigentliche Grund, genauer hinzuschauen: Sie überträgt die Logik der Bilddiffusion auf die Textgenerierung und ersetzt den bekannten autoregressiven Token-für-Token-Prozess durch blockweise parallele Aktualisierungen.

Geschwindigkeitszahlen

Jeder Forward Pass erzeugt 15 bis 20 Token gleichzeitig. Ein herkömmliches autoregressive Modell erzeugt eines. Auf einer NVIDIA H100 entspricht das 1.000+ Token pro Sekunde. Auf einer Consumer-GPU, der GeForce RTX 5090, sind es 700+ Token pro Sekunde. Googles offizielle Angabe: 4-facher Geschwindigkeitsvorteil gegenüber autoregressiven Modellen vergleichbarer Größe.

Die Architektur ist ein 26-Milliarden-Parameter-Mixture-of-Experts-Modell, das bei der Inferenz nur 3,8 Milliarden Parameter aktiviert und 8 aktive Experten aus einem Pool von 128 auswählt. Zusammen mit dem NVFP4-Zahlenformat bleibt der Speicherbedarf deutlich unter dem, was die reine Parameterzahl vermuten lässt.

Wie Textdiffusion funktioniert

Bilddiffusionsmodelle starten mit Rauschen und entfernen es schrittweise, um ein Zielbild zu erzeugen. DiffusionGemma wendet dieselbe Logik auf Sprache an: Ein Antwortrahmen wird mit zufälligen Token gefüllt, dann werden in jeder Iteration die unsichersten Positionen durch kontextuell passende Wörter ersetzt. Jede Iteration aktualisiert den gesamten Block gleichzeitig.

Die strukturelle Schwäche autoregressiver Generierung liegt in der sequenziellen Abhängigkeit: Jeder Schritt baut auf dem vorherigen auf, echte Parallelisierung ist kaum möglich. Blockweise Diffusion umgeht diese Abhängigkeit, indem sie das gesamte Generierungsfenster als ein einziges Verfeinerungsziel behandelt. DiffusionGemma unterstützt Kontextfenster bis zu 256K Token.

Kompromisse und Hintergrund

Geschwindigkeit hat ihren Preis. Die Ausgabequalität liegt unter der des Standard-Gemma 4, besonders bei Aufgaben, die präzises Schlussfolgern erfordern. Google positioniert dieses Modell als experimentell.

Die Forschungsgeschichte reicht bis Mai 2025 zurück, als Google ein experimentelles Gemini-Diffusion-Modell veröffentlichte, das getestet, aber nie öffentlich ausgeliefert wurde. DiffusionGemma baut diese Arbeit auf der Gemma-4-26B-A4B-Architektur neu auf und stellt sie als offene Gewichte zur Verfügung. NVIDIAs NIM-Plattform bietet das Modell ebenfalls kostenlos zur Inferenz an.

Die Open-Source-Entscheidung ist bemerkenswert. Ein Modell mit einem klaren Durchsatzvorteil gegenüber bestehenden Alternativen liegt jetzt unter einer permissiven Lizenz in den Händen der Forschungsgemeinschaft. Textdiffusion war 2025 noch eine Nischenrichtung. Mit konkreten Benchmarkzahlen und einem herunterladbaren Modell ändert sich die Diskussion.

Das Modell akzeptiert Text-, Bild- und Video-Eingaben, unterstützt 35+ Sprachen und Kontextfenster bis zu 256K Token.

Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.

DiffusionGemma als Open Source: Google überträgt Bild-Diffusion auf Sprachmodelle mit 4-facher Inferenzgeschwindigkeit

Geschwindigkeitszahlen

Wie Textdiffusion funktioniert

Kompromisse und Hintergrund

Quellen

Verwandte Artikel

Das DNS für KI-Agenten: Google und 11 Unternehmen starten ARD-Offenstandard

Google Antigravity CLI startet: Gemini CLI wird eingestellt

Geschwindigkeitszahlen

Wie Textdiffusion funktioniert

Kompromisse und Hintergrund

Quellen

Verwandte Artikel

Das DNS für KI-Agenten: Google und 11 Unternehmen starten ARD-Offenstandard

Google Antigravity CLI startet: Gemini CLI wird eingestellt

Abonnieren Sie die neuesten Erkenntnisse