
Eine eigene KI auf dem Rechner klingt nach Science-Fiction, ist aber seit 2024 Realität. Du lädst dir ein Sprachmodell herunter, startest es auf deinem Laptop und chattest los damit. Lokal, offline, kostenlos. Alles ohne Cloud, ohne Abo, ohne dass deine Daten irgendwohin geschickt werden. Das funktioniert mit normaler Consumer-Hardware, kein Supercomputer nötig.
Aber es gibt ein paar Dinge, die man vorher wissen sollte. Denn eine lokale KI ist nicht dasselbe wie ChatGPT oder Claude. Sie ist an manchen Stellen besser, an anderen aber auch deutlich schlechter. Hier ist der Überblick.
Inhaltsverzeichnis
Was eine lokale KI eigentlich ist
Wenn du ChatGPT benutzt, schickst du jede Frage an OpenAIs Server. Dort wird sie verarbeitet, dort liegt das Modell, dort läuft die Berechnung. Deine Daten verlassen deinen Rechner.
Bei einer lokalen KI ist das anders. Du lädst ein komplettes Sprachmodell auf deine Festplatte. Das ist eine Datei, typischerweise zwischen 2 und 40 Gigabyte groß. Dann startest du ein Programm, das dieses Modell auf deiner eigenen Hardware ausführt. Der Chat läuft komplett auf deinem Rechner. Kein Internet nötig, keine Daten, die irgendwo hinwandern.
Die Modelle, die man lokal laufen lassen kann, heißen Open-Weight-Modelle. Die bekanntesten kommen von Meta (Llama), Mistral aus Frankreich, Google (Gemma), Alibaba (Qwen), IBM (Granite) und dem Bostoner Startup Liquid AI. Sie sind frei verfügbar, kostenlos und dürfen auf dem eigenen Rechner genutzt werden, viele davon unter der Apache-2.0-Lizenz.
Moment, Meta? Alibaba? Ist das nicht gefährlich?
Berechtigte Frage. Llama kommt von Meta, also Facebook. Qwen kommt von Alibaba, also China. Das klingt erst mal nicht nach einem Datenschutz-Paradies.
Der entscheidende Unterschied: Ein lokales Modell ist eine Datei auf deiner Festplatte. Es hat keine Internetverbindung, sendet keine Daten, telefoniert nicht nach Hause. Es ist keine App, die im Hintergrund läuft, sondern ein passiver Haufen Mathematik, den dein Rechner abarbeitet. Meta erfährt nicht, was du fragst. Alibaba auch nicht. So jedenfalls sollte es sein.
Das unterscheidet es fundamental von der Facebook-App auf deinem Handy, die sehr wohl nach Hause telefoniert. Bei Open-Weight-Modellen ist der Code einsehbar, Tausende Entwickler weltweit prüfen ihn. Versteckte Tracker würden innerhalb von Stunden auffliegen. Das Risiko liegt nicht im Modell selbst, sondern höchstens in der Software, die du zum Ausführen benutzt. Und auch die ist bei Ollama und Jan quelloffen und überprüfbar.
Und was ist mit versteckten Hintertüren? Könnte das BKA, die NSA oder ein chinesischer Geheimdienst etwas in die Modelle eingebaut haben? Theoretisch ja. Sicherheitsforscher haben gezeigt, dass man Sprachmodelle beim Training manipulieren kann, ohne dass es im normalen Betrieb auffällt.
Praktisch ist das bei den populären Open-Weight-Modellen aber extrem schwierig, weil die Gewichte öffentlich sind und weltweit von Forschern analysiert werden. Eine geheime Hintertür in Llama wäre ungefähr so gut versteckt wie ein Elefant in einer Bibliothek. Irgendjemand merkt es. Bei obskuren Modellen von unbekannten Quellen sieht das anders aus. Aber wer sich an die großen Namen hält, ist auf der sicheren Seite.
Wem Meta oder Alibaba trotzdem nicht geheuer ist: Mistral kommt aus Frankreich, Gemma von Google, Granite von IBM, Liquid AI sitzt in Boston. Die Auswahl ist inzwischen größer als noch vor einem Jahr.
Welche Hardware du brauchst
Die ehrliche Antwort: Es kommt auf das Modell an. Aber die Faustregeln sind einfacher, als die meisten Anleitungen im Netz vermuten lassen, und sie haben sich 2026 spürbar entspannt.
Der Grund ist eine architektonische Verschiebung. Ein Großteil der neuen Open-Weight-Modelle setzt auf Mixture-of-Experts (MoE). Das Modell hat dann zwar viele Milliarden Parameter, aktiviert pro Wort aber nur einen Bruchteil davon. Qwen 3.6-35B-A3B hat zum Beispiel 35 Milliarden Parameter, hält aber nur 3 Milliarden aktiv. Das senkt die Rechenlast dramatisch und verschiebt die Hardware-Anforderungen.
Für Edge- und Mini-Modelle (unter 5 Milliarden Parameter): 8 GB Arbeitsspeicher reichen. Gemma 4 in der E2B- oder E4B-Variante, Liquid LFM2 oder Granite 4.1 3B laufen auch ohne dedizierte Grafikkarte über den Prozessor. LFM2-2.6B schafft auf einem AMD-Ryzen-AI-Notebook über 100 Wörter pro Sekunde, allein auf dem Prozessor.
Für mittlere Modelle (7–9 Milliarden Parameter, dense): 16 GB Arbeitsspeicher und eine halbwegs aktuelle Grafikkarte mit 8 GB VRAM reichen aus. Das entspricht einem mittleren Gaming-PC oder einem aktuellen MacBook Pro. Die Antworten kommen flüssig, vielleicht 30 bis 40 Wörter pro Sekunde.
Für MoE-Modelle in der 30B-Klasse: Hier liegt der größte Sprung. Eine gebrauchte RTX 3090 mit 24 GB VRAM um 700 bis 1.000 Euro genügt, um Qwen 3.6-35B-A3B oder Gemma 4-26B-A4B mit 50 bis 65 Wörtern pro Sekunde zu betreiben. Vor einem Jahr brauchte man dafür Hardware jenseits der 5.000-Euro-Marke. MoE hat die Schwelle eingerissen.
Für dichte 30B-Modelle: Granite 4.1 30B oder Gemma 4-31B Dense rechnen jeden Parameter pro Wort. Hier sind 32 GB VRAM Pflicht, im Idealfall ein MacBook Pro mit M3 Pro/Max und 64 GB unified Memory. Apple-Chips machen hier weiterhin einen erstaunlich guten Job.
Ohne dedizierte Grafikkarte? Geht auch, und nicht nur für Mini-Modelle. Liquid AI hat seine LFM2-Reihe gezielt für Prozessor- und NPU-Inferenz entwickelt, AMD wirbt damit, dass alle drei Recheneinheiten im Ryzen AI PC parallel arbeiten können. Ein älterer Büro-Laptop schafft kleine Modelle, aber die Antworten kommen wortweise statt im Strom. Brauchbar zum Testen, nervig zum Arbeiten. (Stand 05/2026)
Welches Modell sich gerade lohnt
Die Open-Weight-Landschaft hat sich in den letzten Wochen so stark verändert wie sonst in einem ganzen Jahr. Allein im April 2026 sind vier ernstzunehmende neue Modellfamilien erschienen. Hier ist der nüchterne Überblick.
Gemma 4 (Google, April 2026). Apache 2.0, vier Größen von E2B (für Smartphones) bis 31B Dense (für Workstations). Die 26B-MoE-Variante aktiviert nur 4 Milliarden Parameter pro Wort und liefert nach Googles Angaben das ungefähre Niveau eines GPT-4. 256.000 Token Kontext, multimodal mit Bild- und Audio-Eingabe. Wer in LM Studio oder Ollama loslegen will, fährt mit Gemma 4-E4B oder Gemma 4-26B-A4B am besten.
Qwen 3.6-35B-A3B (Alibaba, April 2026). Apache 2.0, MoE mit 3 Milliarden aktiven Parametern, 256.000 Token Kontext, ausgelegt auf Coding und Werkzeugnutzung. Das Modell, das die Hardware-Schwelle für 30B-Klasse-KI auf eine RTX 3090 gedrückt hat. Fast schon das Standardmodell für ambitionierte Hobbynutzer geworden. Wer lieber konsistente Qualität als Geschwindigkeit will, greift stattdessen zur Dense-Variante Qwen 3.6-27B.
Granite 4.1 (IBM, 29. April 2026). Apache 2.0, dense in 3B/8B/30B mit 128.000 Token Kontext (erweiterbar auf 512.000). IBMs Modell ist das erste Open-Weight-Modell mit ISO-42001-Zertifizierung und kryptographisch signierten Gewichten. Multilingual mit Deutsch als nativ unterstützter Sprache. Wer Wert auf nachvollziehbare Lieferkette legt, bekommt das hier so sauber wie sonst nirgends. IBM ganz vorn, und man braucht nicht mal eine Schreibmaschine dazu.
Mistral Medium 3.5 (Frankreich, 29. April 2026). Modifizierte MIT-Lizenz, dense mit 128 Milliarden Parametern, 256.000 Token Kontext. Das Modell ist zu groß für den heimischen Laptop, läuft aber auf vier Server-GPUs und ist Mistrals Antwort auf den Konsolidierungstrend. Reasoning, Coding und Chat in einem Modell. Für die meisten Privatnutzer ist Mistral Small 4 die realistischere Variante.
Liquid LFM2 und LFM2.5 (Boston, ab Februar 2026). LFM-Open-Lizenz, hybride Architektur jenseits der reinen Transformer. LFM2-2.6B-Exp übertraf in Benchmarks zur Befehlsbefolgung sogar DeepSeek R1, und das mit weniger als drei Milliarden Parametern. Speziell auf Prozessor- und NPU-Inferenz optimiert, also genau das Richtige für Notebooks ohne dedizierte Grafikkarte.
Llama 4 (Meta, seit April 2025). Llama 4 Scout (17B aktive von 109B Parametern) und Maverick (17B aktive von 400B Parametern) waren lange das Maß der Dinge im Open-Weight-Bereich, sind aber inzwischen von Gemma 4 und Qwen 3.6 in vielen Benchmarks überholt worden. Scout passt mit Quantisierung gerade noch auf eine RTX 4090, Maverick braucht Server-Hardware.
Die Faustregel für 2026: Wer einen Standard-Laptop hat, fängt mit Gemma 4-E4B oder Liquid LFM2 an. Wer eine RTX 3090 oder besser im Rechner hat, holt sich Qwen 3.6-35B-A3B. Wer auf nachvollziehbare Herkunft setzt, nimmt Granite 4.1. Wer Deutsch braucht und politisch aus Europa wählen will, bleibt bei Mistral.
Der einfachste Weg: LM Studio
LM Studio ist die Anwendung, die ich jedem empfehlen würde, der zum ersten Mal eine lokale KI ausprobieren will. Du lädst sie herunter, installierst sie, und hast eine Oberfläche, die aussieht wie ChatGPT. Nur läuft alles auf deinem Rechner.
Das Besondere: LM Studio hat einen eingebauten Modell-Browser. Du suchst dir ein Modell aus, klickst auf Download, wartest ein paar Minuten und kannst loschatten. Kein Terminal, keine Konfigurationsdateien, kein technisches Wissen nötig. Die Software erkennt automatisch deine Hardware und schlägt passende Modelle vor.
Für den Anfang ist Gemma 4 in der E4B-Variante eine solide Wahl. 4 Milliarden Parameter, läuft auf 8 GB Arbeitsspeicher, und Google hat es auf 140 Sprachen trainiert, Deutsch inklusive. Eine Klasse darüber sitzt Qwen 3.5-9B, der zuverlässige Allrounder für 16 GB RAM und eine kleine 8-GB-GPU. Wer mehr Rechenleistung übrig hat, greift zu Qwen 3.6-35B-A3B, dem MoE-Modell, das wie ein 35B-Modell antwortet, aber nur wie ein 3B-Modell rechnet. Und wer schwören will auf europäische Herkunft: Mistral Small 4 hat die romanischen und germanischen Sprachen weiterhin am besten im Griff.
LM Studio ist kostenlos für den persönlichen Gebrauch, aber nicht Open Source. Wem das wichtig ist, der findet mit Jan eine vollständig quelloffene Alternative mit ähnlichem Bedienkomfort.
Für Leute, die gern tippen: Ollama
Ollama ist der andere große Name. Es läuft über die Kommandozeile, du tippst einen Befehl, das Modell wird heruntergeladen und gestartet. Klingt einschüchternd, ist aber in der Praxis genau zwei Zeilen:
ollama pull gemma4
ollama run gemma4
Das war’s. Du chattest jetzt mit Gemma 4 in deinem Terminal. Ollama ist Open Source, hat über 100.000 Sterne auf GitHub und ist der De-facto-Standard für lokale KI-Entwicklung. Wer später seine eigene KI in andere Programme einbinden will, etwa in ein Schreibprogramm, eine Website oder ein eigenes Tool, kommt an Ollama kaum vorbei. Auch der KI-Agent OpenClaw setzt darauf auf.
Der Nachteil: Ollama hat von Haus aus keine grafische Oberfläche. Man kann eine nachrüsten, etwa mit Open WebUI, aber das ist ein weiterer Schritt. Für den reinen Chat-Gebrauch ist LM Studio bequemer.
Wie viel weiß so ein Mini-Modell eigentlich?
Das ist die Frage, die sich jeder stellen sollte. Die deutsche Wikipedia als reiner Text ist rund 5 Gigabyte groß. Ein lokales 8B-Modell? Ebenfalls etwa 5 Gigabyte. Wie soll da dasselbe Wissen reinpassen?
Die Antwort: Tut es nicht. Ein Sprachmodell ist kein Nachschlagewerk. Es speichert keine Fakten in einer Datenbank, sondern komprimiert statistische Muster aus riesigen Textmengen in eine verhältnismäßig kleine Datei. Das funktioniert erstaunlich gut für Sprachgefühl, Grammatik, allgemeine Zusammenhänge und häufig abgefragte Themen. Aber konkrete Fakten wie Jahreszahlen, Namen und Detailwissen gehen bei der Kompression verloren.
Ein großes Modell wie GPT-5 oder Claude Opus 4.7 hat Hunderte Milliarden Parameter und wurde mit viel größeren Datensätzen trainiert. Es kann mehr behalten, weil es schlicht mehr Platz hat. Ein 8B-Modell muss stärker komprimieren und verliert dabei Details. Es kann über die französische Revolution plausibel reden, aber die genauen Daten der einzelnen Phasen verwechselt es schon mal.
Deshalb ist die wichtigste Regel bei lokalen Modellen: Vertraue ihnen beim Formulieren, nicht beim Faktenwissen. Für Texte schreiben, überarbeiten, Brainstorming … hervorragend. Für »Wann genau wurde der Vertrag von Verdun geschlossen?« … lieber nachschlagen. Bei den großen Cloud-Modellen übrigens auch. Die haben nur eine höhere Trefferquote.
Was lokale Modelle können und was nicht
Lokale Modelle sind nicht einfach eine Offline-Version von ChatGPT. Sie sind anders.
Was gut funktioniert: Texte schreiben und überarbeiten, Zusammenfassungen, Übersetzungen, Brainstorming, einfache Programmieraufgaben, Erklärungen, Unterhaltung. Für viele Alltagsaufgaben reicht ein lokales 8B-Modell völlig aus. Besonders bei Dingen, die Privatsphäre erfordern, ist lokal schlicht besser, weil nichts das Haus verlässt. Persönliche Notizen durchsuchen, vertrauliche Dokumente zusammenfassen, sensible Texte formulieren, ohne dass ein Anbieter mitliest.
Was nicht funktioniert: Websuche (das Modell hat keinen Internetzugang), aktuelle Informationen (das Wissen endet mit dem Trainingsdatum), sehr komplexe Aufgaben, die die großen Modelle wie GPT-5 oder Claude Opus 4.7 brauchen. Auch Bildgenerierung und Sprachausgabe sind lokal noch deutlich eingeschränkter als bei den Cloud-Diensten, auch wenn Gemma 4 und Granite Vision 4.1 die Lücke bei der Bildanalyse spürbar verkleinern.
Keine Zensur: Fluch und Segen
ChatGPT und Claude haben Sicherheitsfilter. Frag sie nach dem Bau einer Bombe, nach extremistischer Propaganda oder nach expliziten Inhalten. Sie werden ablehnen. Manchmal zu Recht, manchmal nervig. Wer schon mal versucht hat, einen Krimi-Dialog zu schreiben, in dem jemand vergiftet wird, kennt das Problem.
Lokale Modelle haben diese Filter nicht, oder nur in stark abgeschwächter Form. Es gibt sogar Varianten, die explizit als »uncensored« im Dateinamen stehen. Die verweigern nichts. Gar nichts.
Das ist gleichzeitig einer der größten Vorteile und der offensichtlichste Nachteil. Vorteil: Keine Bevormundung bei harmlosen Anfragen. Wer einen Thriller schreibt, medizinische Texte formuliert oder juristische Szenarien durchspielt, wird nicht ständig von einem übervorsichtigen Algorithmus unterbrochen. Nachteil: Ja, man kann damit auch Bekennerbriefe formulieren lassen, extremistische Texte oder explizite Inhalte jeder Art. Das Modell unterscheidet nicht zwischen einem Romanautor und jemandem mit schlechten Absichten.
Die Verantwortung liegt beim Nutzer. Das ist kein Disclaimer, das ist die Realität. Lokale KI ist ein Werkzeug ohne eingebaute Moral, wie ein Messer, ein Auto oder das Internet selbst. Wer damit Unsinn anstellt, braucht dafür kein Sprachmodell, aber ein Sprachmodell macht es bequemer. Das sollte man wissen, bevor man es installiert.
Warum man es trotzdem machen sollte
Privatsphäre. Kein Anbieter sieht, was du fragst. Keine Nutzungsbedingungen, die sich ändern könnten. Keine Diskussion darüber, ob OpenAI oder Google deine Daten zum Training verwendet. Was auf deinem Rechner bleibt, bleibt auf deinem Rechner.
Kosten. Nach dem Download ist alles kostenlos. Keine monatlichen Abos, keine Token-Limits, keine Nachricht-Obergrenzen. Du kannst tausend Fragen pro Tag stellen, ohne dass irgendjemand eine Rechnung schickt. Wer regelmäßig KI-APIs nutzt, weiß, wie schnell sich das sonst summiert.
Verfügbarkeit. Lokale KI funktioniert auch ohne Internet. Im Zug, im Flugzeug, im Funkloch. Wenn OpenAIs Server mal wieder überlastet sind, chattest du einfach weiter.
Verständnis. Wer einmal ein lokales Modell installiert hat, versteht besser, was KI eigentlich ist und wie sie funktioniert. Es ist keine Magie, keine Intelligenz im menschlichen Sinne. Es ist eine Datei auf deiner Festplatte, die statistisch plausible Texte erzeugt. Diese Erfahrung ist wertvoller als jedes Erklärvideo.
Eigene KI und Cloud: Die kluge Kombination
Die meisten, die lokale KI nutzen, setzen sie nicht als Ersatz ein, sondern als Ergänzung. Claude oder ChatGPT für die schweren Aufgaben, das lokale Modell für alles, wo Privatsphäre wichtig ist oder wo man schlicht kein Abo braucht.
Ein typischer Workflow: Vertrauliche Texte lokal zusammenfassen. Ideen lokal brainstormen. Den fertigen Entwurf dann mit Claude oder ChatGPT verfeinern, wenn nötig. So nutzt man die Stärken beider Welten und gibt nur die Daten aus der Hand, bei denen es einem egal ist. Mit dem Model Context Protocol wachsen lokale und Cloud-Modelle zudem zusammen, was die Aufgabenteilung noch sauberer macht.
Probier es aus. LM Studio installieren, Gemma 4-E4B laden, eine Frage stellen. Dauert keine zehn Minuten. Und danach weißt du, ob eine eigene KI auf dem Laptop für dich Sinn ergibt. Oder ob du bei deinem bisherigen Setup bleibst. Beides ist völlig in Ordnung.
Die unbequeme Wahrheit: 90 Prozent werden LM Studio einmal installieren, enttäuscht feststellen, dass die Antworten nicht an Claude oder ChatGPT rankommen, und es nie wieder öffnen. Privatsphäre ist ein starkes Argument, aber kein Trost, wenn das Modell deine Frage nicht versteht.