Googles DiffusionGemma schreibt Text nicht mehr Wort für Wort

KI-News: DiffusionGemma, Google, 4× schneller

Google DeepMind hat am 10. Juni DiffusionGemma veröffentlicht, ein offenes Sprachmodell, das Text nicht mehr Wort für Wort produziert, sondern in ganzen Blöcken. Das Modell steht unter Apache-2.0-Lizenz, die Gewichte liegen frei auf Hugging Face. Es ist ein Modell mit 26 Milliarden Parametern in Mixture-of-Experts-Bauart und sitzt auf dem Unterbau der Gemma-4-Familie.

Die Technik dahinter heißt Diffusion, dasselbe Prinzip wie bei KI-Bildgeneratoren. Das Modell startet mit einer Leinwand aus zufälligen Platzhaltern und schärft sie über mehrere Durchläufe nach, bis lesbarer Text übrig bleibt. 256 Tokens entstehen pro Durchgang gleichzeitig, jedes darf dabei auf jedes andere blicken. Heraus kommt eine bis zu viermal schnellere Ausgabe, über 1000 Tokens pro Sekunde auf einer Nvidia H100, über 700 auf einer RTX 5090. Aktiv sind davon nur 3,8 der 26 Milliarden Parameter, quantisiert passt das Ganze in 18 GB Grafikspeicher.

Für alle, die KI lokal auf dem eigenen Rechner betreiben, ist Tempo der Flaschenhals, und genau da setzt das Modell an. Schnelle Inline-Bearbeitung, Code, der fast in Echtzeit entsteht, das alles wird flüssiger. Der Haken steht im Kleingedruckten. Google sagt selbst, die Qualität liege unter der von normalem Gemma 4, wer maximale Güte braucht, soll beim alten Modell bleiben. Tempo gegen Präzision, die Rechnung muss jeder selbst aufmachen.

Und der Geschwindigkeitsvorteil gilt nur lokal. In der Cloud, wo Server tausende Anfragen bündeln, schrumpft er und kann die Kosten sogar nach oben treiben. DiffusionGemma ist ausdrücklich als Experiment gekennzeichnet, nicht als Produktionsmodell. Ein interessanter Seitenweg also, kein neuer Hauptweg.

Quellen

Ähnliche News

Bist du bereit für mehr?

Was sagst du dazu?