
Google Gemma ist ein KI-Modell, das auf deinem Rechner läuft. Nicht in der Cloud, nicht hinter einer API, nicht mit monatlichem Abo. Du lädst es herunter, startest es, und es antwortet. Lokal, offline, kostenlos. Seit April 2026 gibt es die vierte Generation, und sie übertrifft Modelle, die zwanzigmal größer sind. Das klingt nach Marketing. Ist es aber nicht.
Gemma kommt von Google DeepMind und basiert auf derselben Technologie wie Gemini, Googles proprietäres Sprachmodell. Der Unterschied: Gemma ist offen. Nicht nur eine Schnittstelle, über die man Anfragen schickt, sondern das komplette Modell zum Herunterladen. Man kann es auf eigener Hardware betreiben, verändern, in eigene Produkte einbauen.
Seit der vierten Generation darf das jeder, ohne Einschränkungen, ohne Gebühren, ohne Google um Erlaubnis zu fragen. Die Lizenz dahinter heißt Apache 2.0, und sie ist so freizügig, wie Software-Lizenzen nur sein können.
Über 400 Millionen Downloads seit dem Start der ersten Generation im Februar 2024. Mehr als 100.000 Varianten, die Entwickler weltweit daraus gebaut haben. Das ist keine Nische mehr.
Inhaltsverzeichnis
Was Google Gemma von ChatGPT und Claude unterscheidet
ChatGPT und Claude sind Dienste. Du gibst etwas ein, die Anfrage geht in die Cloud, dort rechnet ein Server, das Ergebnis kommt zurück. Deine Daten verlassen deinen Rechner. Bei Gemma passiert das nicht. Das Modell läuft auf deiner Hardware, und was du eingibst, bleibt dort.
Das ist kein Detail. Für Ärzte, Anwälte, Lehrer mit Schülerdaten, für jeden, der mit sensiblen Informationen arbeitet, ist das der entscheidende Punkt. Keine Sorge darüber, ob die KI deine Daten speichert. Keine Abhängigkeit von einem Anbieter, der morgen die Preise erhöhen oder den Dienst einstellen kann.
Google Gemma ist eine Familie offener KI-Modelle von Google DeepMind. Die Modelle sind in verschiedenen Größen verfügbar, laufen lokal auf eigener Hardware und stehen seit der vierten Generation unter der freien Apache-2.0-Lizenz.
Allerdings sind die großen Cloud-Modelle nach wie vor leistungsfähiger. Ein lokales Gemma-Modell ersetzt kein Claude Opus oder GPT-4o bei komplexen Aufgaben. Aber für viele Anwendungen reicht es. Und es wird mit jeder Generation besser.
Die Gemma-Familie: Von Gemma 1 bis Gemma 4
Die erste Generation erschien im Februar 2024 mit 2B und 7B Parametern. Solide, aber nicht spektakulär. Gemma 2 folgte im Juni 2024 mit besserer Qualität, Gemma 3 im März 2025 brachte multimodale Fähigkeiten: Das Modell konnte plötzlich auch Bilder verstehen, nicht nur Text. Kontextfenster: 128.000 Tokens, Unterstützung für über 140 Sprachen.
Gemma 4, veröffentlicht am 2. April 2026, ist der bisher größte Sprung. Vier Modellgrößen statt einer Einheitsgröße. Neue Architekturen. Und eine Lizenz, die tatsächlich frei ist.
Vier Modelle für vier Einsatzgebiete
Die vierte Generation besteht aus vier Modellen, jedes für einen anderen Zweck gebaut. Das ist nicht nur Marketing-Segmentierung, die Architekturen unterscheiden sich grundlegend.
Google Gemma 4 gibt es in vier Größen, von Smartphone bis Workstation. Die Balkenbreite zeigt die relative Anzahl der Parameter.
E2B ist das kleinste Modell. Das »E« steht für »effective parameters«, effektive Parameter. Das Modell hat insgesamt 2,3 Milliarden Parameter, aktiviert aber durch eine Technik namens Per-Layer Embeddings nur einen Teil davon. Es läuft auf Smartphones, auf einem Raspberry Pi, sogar auf Smartwatches. In quantisierter Form braucht es weniger als 1,5 GB Arbeitsspeicher. Trotzdem verarbeitet es Text, Bilder und sogar Audio.
E4B ist die größere Edge-Variante mit 5,1 Milliarden Parametern. Gedacht für Laptops und Tablets, leistungsfähiger als E2B, aber immer noch offline auf Consumer-Hardware lauffähig. Wie E2B verarbeitet es Text, Bilder und Audio nativ. Beide Edge-Modelle haben ein Kontextfenster von 128.000 Tokens.
26B A4B ist das womöglich interessanteste Modell der Familie. Es nutzt Mixture-of-Experts, eine Architektur, bei der nicht alle Parameter gleichzeitig arbeiten. Das »A« steht für »active«: Von den 25,2 Milliarden Parametern sind bei jedem Token nur 3,8 Milliarden aktiv. Der Rest schläft. Das Ergebnis: Geschwindigkeit wie ein 4B-Modell, Qualität fast wie das große 31B. Kontextfenster: 256.000 Tokens, doppelt so viel wie bei den kleinen Modellen. Verarbeitet Text und Bilder, aber kein Audio.
31B Dense ist das Flaggschiff. Alle 31 Milliarden Parameter arbeiten bei jedem Token. Es passt auf eine einzelne 80-GB-GPU wie die NVIDIA H100. In quantisierter Form läuft es auch auf Consumer-Grafikkarten. Ebenfalls 256.000 Tokens Kontext, ebenfalls Text und Bild, kein Audio. Auf der LMArena-Rangliste belegt es Platz 3 unter allen offenen Modellen (Stand 04/2026), mit einem ELO-Score von rund 1452.
Alle vier Modelle unterstützen über 140 Sprachen, Function Calling und einen eingebauten Denkmodus, bei dem das Modell Schritt für Schritt überlegt, bevor es antwortet.
Was ist Mixture-of-Experts?
Mixture-of-Experts ist im Kern eine einfache Idee: Statt ein riesiges neuronales Netz komplett zu durchlaufen, wird bei jedem einzelnen Token ein Router vorgeschaltet. Der Router entscheidet, welche Teile des Netzes aktiviert werden, und den Rest ignoriert er. Bei Gemma 4 gibt es 128 kleine Experten-Module. Pro Token wählt der Router 8 davon aus, plus einen gemeinsam genutzten Experten.
Beim Mixture-of-Experts-Verfahren arbeiten nur wenige Experten gleichzeitig. Der Rest bleibt inaktiv, spart Rechenleistung und Speicher.
Der Effekt ist verblüffend. Das 26B-Modell rechnet so schnell wie ein 4B-Modell, weil es pro Schritt auch nur 3,8 Milliarden Parameter bewegt. Aber die Gesamtkapazität des Netzes ist viel größer, weil verschiedene Experten verschiedene Dinge gelernt haben. Einer kennt sich mit Code aus, ein anderer mit Sprache, ein dritter mit Logik. Der Router schickt die Anfrage an die richtigen Stellen.
Mixture-of-Experts (MoE) ist eine Architektur für neuronale Netze, bei der pro Eingabe nur ein kleiner Teil der Parameter aktiviert wird. Das ermöglicht große Modellkapazität bei geringem Rechenaufwand. Google Gemma 4 nutzt MoE im 26B-Modell mit 128 Experten, von denen jeweils 9 gleichzeitig arbeiten.
DeepSeek nutzt ein ähnliches Verfahren, die chinesischen KI-Modelle haben diesen Architekturansatz populär gemacht. Google geht mit Gemma 4 einen eigenen Weg: Die MoE-Blöcke sind als separate Schichten neben den normalen MLP-Blöcken angeordnet, nicht als Ersatz dafür.
Was das für Normalnutzer bedeutet
Die technischen Details sind das eine. Das andere ist die Frage, die jeden interessiert, der keine Server administriert: Kann ich das gebrauchen?
Ja. Wenn du einen halbwegs aktuellen Rechner mit 16 GB RAM hast, kannst du Gemma E4B mit Ollama oder LM Studio herunterladen und starten. Die Einrichtung dauert zehn Minuten. Danach hast du eine KI, die offline funktioniert, Texte zusammenfasst, Fragen beantwortet, Bilder beschreibt, Code schreibt und in über 140 Sprachen arbeitet.
Auf einem Android-Smartphone mit aktuellem Chip läuft das E2B-Modell direkt über Googles AI Edge Gallery. Keine App, die Daten an Server schickt. Alles lokal.
Für Lehrer, die mit Schülerdaten arbeiten, ist das plausibel die beste Option. Eine KI, die Aufsätze korrigiert, Aufgaben erstellt oder Texte vereinfacht, ohne dass irgendetwas den Schulrechner verlässt. Für Selbstständige, die KI-Kosten sparen wollen, ebenfalls. Gemma kostet nichts.
Natürlich gibt es Grenzen. Halluzinationen bleiben ein Thema, lokale Modelle sind davon nicht weniger betroffen als Cloud-Dienste. Und ein 4B-Modell wird bei einer mehrseitigen Analyse nicht das Niveau von Claude oder GPT-4o erreichen. Das muss es auch nicht. Es muss gut genug sein für die Aufgabe.
Embodied AI: Wenn die KI einen Körper bekommt
Modelle wie Gemma machen etwas möglich, das vor zwei Jahren noch ein Forschungsproblem war: KI, die in physischen Maschinen steckt. Roboter, Drohnen, autonome Fahrzeuge. Embodied AI, verkörperte Intelligenz.
Das Problem war bisher nicht die Intelligenz, sondern die Latenz. Ein Roboter, der vor einem Hindernis steht, kann nicht 200 Millisekunden auf eine Cloud-Antwort warten. Er braucht die Entscheidung sofort, auf dem eigenen Chip. Und in vielen Einsatzszenarien gibt es schlicht kein Netz. Ein Ernteroboter auf dem Feld, eine Drohne in einer Katastrophenzone, ein Unterwasserfahrzeug. Die Cloud ist da nicht nur langsam, sie ist nicht da.
Genau deshalb hat Google die E2B- und E4B-Modelle so aggressiv auf Edge-Hardware optimiert. Sie laufen auf NVIDIA Jetson, auf Qualcomm- und MediaTek-Chips. Das sind die Prozessoren, die in Robotern und autonomen Systemen stecken. Und Gemma 4 kann Text, Bilder und Audio verarbeiten. Ein Modell, das sieht, hört und entscheidet, ohne nach Hause zu funken.
Das ist der Punkt, an dem lokale KI über den Desktop hinauswächst. KI-Roboter im Alltag werden nicht über Cloud-APIs gesteuert werden. Sie werden Modelle wie Gemma direkt auf ihrem eigenen Prozessor laufen lassen. Die Technik dafür ist jetzt da.
Warum die Lizenz ein Wendepunkt ist
Gemma 3 hatte noch eine hauseigene Google-Lizenz mit Nutzungseinschränkungen. Gemma 4 steht unter Apache 2.0. Für Nicht-Entwickler übersetzt: Das bedeutet, dass man mit dem Modell machen darf, was man will. Verkaufen, einbauen, verändern, weitergeben. Keine Meldepflicht, keine Nutzungsobergrenze, kein Kleingedrucktes.
Was das konkret heißt: Ein Unternehmen kann Gemma 4 in ein Produkt einbauen und muss Google nicht einmal informieren. Eine Universität kann das Modell für Forschung nutzen, ohne einen Vertrag zu unterschreiben. Ein Entwickler kann es nehmen, auf eigene Daten trainieren und als eigenes Modell veröffentlichen.
Das ist nicht selbstverständlich. Metas Llama hat bis heute Nutzungseinschränkungen für große Unternehmen. OpenAI gibt seine Modelle gar nicht erst zum Herunterladen frei. Googles Schritt zu einer vollständig offenen Lizenz setzt ein Signal, das über Gemma hinausgeht.
Wie schneidet Gemma 4 im Vergleich ab?
Benchmarks sind fragwürdig. Was auf einer Testaufgabe gut abschneidet, funktioniert im Alltag womöglich ganz anders. Trotzdem liefern sie eine grobe Orientierung.
Gemma 4 31B erreicht auf BigBench Extra Hard 74,4%. Gemma 3 lag bei 19,3%. Das ist kein inkrementeller Fortschritt, das ist ein Generationssprung. Auf der LMArena-Rangliste, wo Menschen Modelle blind gegeneinander bewerten, liegt das 31B-Modell auf Platz 3 unter allen offenen Modellen. Das E2B-Modell, das auf einem Smartphone läuft, übertrifft in mehreren Tests das Gemma 3 27B, ein Modell das zwölfmal größer ist.
Im Vergleich zu Llama, Qwen und DeepSeek schlägt sich Gemma 4 auf Augenhöhe oder besser, jedenfalls in seiner jeweiligen Gewichtsklasse. Die Stärke liegt nicht in einem einzelnen Spitzenwert, sondern in der Breite: Text, Bild, Audio, Code, Reasoning, über 140 Sprachen. Alles in einem Modell, das auf Consumer-Hardware läuft.
Wo Gemma an Grenzen stößt
Ein offenes Modell mit wenigen Milliarden Parametern wird nicht alles können. Wer eine mehrstufige Recherche braucht oder ein 50-seitiges Dokument analysieren will, ist bei Claude oder ChatGPT besser aufgehoben. Die großen Cloud-Modelle haben schlicht mehr Kapazität, und sie werden ständig verbessert.
Auch das Fine-Tuning war bei Gemma 4 am Launchtag holprig. Die Hugging-Face-Bibliothek Transformers erkannte die Architektur zunächst nicht, und das Adapter-Tool PEFT hatte Probleme mit einer neuen Schicht im Vision-Encoder. Das ist typisch für neue Modelle und wird sich schnell legen. Aber es zeigt: Wer am ersten Tag produktiv arbeiten will, braucht etwas Geduld.
Und dann ist da die grundsätzliche Frage: Wie viel Kontrolle gibt man einem Modell, das lokal auf dem eigenen Rechner läuft, keine Sicherheitsmechanismen eines Cloud-Anbieters hat und im Prinzip alles tun kann, was man ihm erlaubt?
Google hat ShieldGemma als Sicherheitsfilter parallel veröffentlicht. Ob Entwickler es einsetzen, ist ihre Entscheidung.
Wie du Gemma 4 ausprobieren kannst
Der schnellste Weg: Google AI Studio öffnen, Gemma 4 auswählen, loschatten. Kostet nichts, läuft im Browser.
Wer das Modell lokal installieren will, braucht Ollama (ein Kommandozeilen-Tool) oder LM Studio (grafische Oberfläche). In beiden Fällen sind es drei Schritte: Tool installieren, Modell herunterladen, starten. Die quantisierten Versionen brauchen deutlich weniger Speicher als die Vollversionen. Das E4B-Modell in INT4-Quantisierung läuft auf den meisten Rechnern mit 16 GB RAM.
Auf Hugging Face gibt es alle Varianten zum Download: google/gemma-4-31B-it für das Flaggschiff, google/gemma-4-E4B-it für die Desktop-Version, google/gemma-4-E2B-it für Smartphones.
Google Gemma ist womöglich das wichtigste offene KI-Modell, das es gerade gibt. Nicht weil es in jedem Benchmark gewinnt, sondern weil es die Schwelle senkt. Eine KI, die auf dem eigenen Rechner läuft, keine Daten verschickt und nichts kostet, verändert die Spielregeln. Jedenfalls für alle, die KI nutzen wollen, ohne sich von einem Anbieter abhängig zu machen.