Googles Gemma 4 12B bringt Augen und Ohren auf den Laptop

KI-News: Gemma 4 12B, 16 GB, multimodal

Google DeepMind hat Gemma 4 12B veröffentlicht, ein offenes Modell, das Text, Bilder und Audio direkt verarbeitet und auf einem Laptop mit 16 GB RAM läuft. Lizenz: Apache 2.0, also wirklich offen, nicht das übliche »open, aber bitte Vertrag lesen«. Die Besonderheit steckt in der Architektur: Es gibt keine separaten Encoder mehr für Bild und Ton. Beides fließt direkt ins Sprachmodell, beim Audio wird das rohe Signal schlicht in denselben Raum projiziert wie Text-Token.

Die Zahlen: 12 Milliarden Parameter, Benchmark-Leistung nahe am hauseigenen 26B-Mixture-of-Experts bei weniger als der Hälfte des Speicherbedarfs. Es ist das erste mittelgroße Gemma mit nativem Audio-Input, der Vision-Encoder wurde durch eine einzelne Matrixmultiplikation samt Normalisierung ersetzt. Die Gemma-4-Familie steht laut Google inzwischen bei über 150 Millionen Downloads. Verfügbar ist das Modell ab sofort über LM Studio, Ollama, Hugging Face und Kaggle.

Für Nutzer heißt das: Eine KI, die Sprachmemos versteht und Fotos analysiert, ohne dass ein einziges Byte den eigenen Rechner verlässt. Kein Abo, keine Cloud, keine Datenschutzerklärung in der Länge eines Kurzromans. Was Googles offene Gemma-Reihe generell kann, haben wir uns bereits angesehen, und wer mit dem Gedanken spielt, sich eine eigene KI auf den Laptop zu holen, bekommt hier das bislang stärkste Argument dafür frei Haus. Dass Google die Technik verschenkt, die andere hinter 20-Dollar-Abos verstecken, ist natürlich keine Nächstenliebe, sondern Ökosystem-Pflege. Funktioniert trotzdem.

Eine Einschränkung bleibt: »Nahe am 26B-Modell« heißt nicht »gleich gut«, und die Benchmarks stammen von Google selbst. Unabhängige Tests stehen noch aus. Und 16 GB RAM sind zwar Laptop-Standard, aber wer daneben noch einen Browser mit 40 Tabs offen hat, wird das Modell schnaufen hören.

Quellen

Ähnliche News

Diese Meldung wurde mit Unterstützung von Claude (Anthropic) recherchiert und verfasst. Inhaltliche Fehler sind möglich. Die verlinkten Quellen ermöglichen eine eigene Prüfung. Fachbegriffe erläutert das Glossar.

Bist du bereit für mehr?

Was sagst du dazu?