
Eine eigene KI auf dem Rechner klingt nach Science-Fiction, ist aber seit 2024 Realität. Du lädst dir ein Sprachmodell herunter, startest es auf deinem Laptop und chattest los damit. Lokal, offline, kostenlos. Alles ohne Cloud, ohne Abo, ohne dass deine Daten irgendwohin geschickt werden. Das funktioniert mit normaler Consumer-Hardware, kein Supercomputer nötig.
Aber es gibt ein paar Dinge, die man vorher wissen sollte. Denn eine lokale KI ist nicht dasselbe wie ChatGPT oder Claude. Sie ist an manchen Stellen besser, an anderen aber auch deutlich schlechter. Hier ist der Überblick.
Inhaltsverzeichnis
Was eine lokale KI eigentlich ist
Wenn du ChatGPT benutzt, schickst du jede Frage an OpenAIs Server. Dort wird sie verarbeitet, dort liegt das Modell, dort läuft die Berechnung. Deine Daten verlassen deinen Rechner.
Bei einer lokalen KI ist das anders. Du lädst ein komplettes Sprachmodell auf deine Festplatte. Das ist eine Datei, typischerweise zwischen 4 und 40 Gigabyte groß. Dann startest du ein Programm, das dieses Modell auf deiner eigenen Hardware ausführt. Der Chat läuft komplett auf deinem Rechner. Kein Internet nötig, keine Daten, die irgendwo hinwandern.
Die Modelle, die man lokal laufen lassen kann, heißen Open-Weight-Modelle. Die bekanntesten sind Llama von Meta, Mistral aus Frankreich, Gemma von Google und Qwen von Alibaba. Sie sind frei verfügbar, kostenlos und dürfen auf dem eigenen Rechner genutzt werden.
Moment, Meta? Alibaba? Ist das nicht gefährlich?
Berechtigte Frage. Llama kommt von Meta, also Facebook. Qwen kommt von Alibaba, also China. Das klingt erst mal nicht nach Datenschutz-Paradies.
Der entscheidende Unterschied: Ein lokales Modell ist eine Datei auf deiner Festplatte. Es hat keine Internetverbindung, sendet keine Daten, telefoniert nicht nach Hause. Es ist keine App, die im Hintergrund läuft, sondern ein passiver Haufen Mathematik, den dein Rechner abarbeitet. Meta erfährt nicht, was du fragst. Alibaba auch nicht.
Das unterscheidet es fundamental von der Facebook-App auf deinem Handy, die sehr wohl nach Hause telefoniert. Bei Open-Weight-Modellen ist der Code einsehbar, Tausende Entwickler weltweit prüfen ihn. Versteckte Tracker würden innerhalb von Stunden auffliegen. Das Risiko liegt nicht im Modell selbst, sondern höchstens in der Software, die du zum Ausführen benutzt. Und auch die ist bei Ollama und Jan quelloffen und überprüfbar.
Und was ist mit versteckten Hintertüren? Könnte das BKA, die NSA oder ein chinesischer Geheimdienst etwas in die Modelle eingebaut haben? Theoretisch ja. Sicherheitsforscher haben gezeigt, dass man Sprachmodelle beim Training manipulieren kann, ohne dass es im normalen Betrieb auffällt.
Praktisch ist das bei den populären Open-Weight-Modellen aber extrem schwierig, weil die Gewichte öffentlich sind und weltweit von Forschern analysiert werden. Eine geheime Hintertür in Llama wäre ungefähr so gut versteckt wie ein Elefant in einer Bibliothek. Irgendjemand merkt es. Bei obskuren Modellen von unbekannten Quellen sieht das anders aus. Aber wer sich an die großen Namen hält, ist auf der sicheren Seite.
Wem Meta trotzdem nicht geheuer ist: Mistral kommt aus Frankreich, Gemma von Google. Man hat die Wahl.
Welche Hardware du brauchst
Die ehrliche Antwort: Es kommt auf das Modell an. Aber die Faustregeln sind einfacher, als die meisten Anleitungen im Netz vermuten lassen.
Für kleine Modelle (7–8 Milliarden Parameter): 16 GB Arbeitsspeicher und eine halbwegs aktuelle Grafikkarte mit 8 GB VRAM reichen aus. Das entspricht einem mittleren Gaming-PC oder einem neueren MacBook Pro. Die Antworten kommen flüssig, vielleicht 30 bis 40 Wörter pro Sekunde. Schneller als du lesen kannst.
Für größere Modelle (13–30 Milliarden Parameter): 32 GB RAM und eine Grafikkarte mit 16 bis 24 GB VRAM. Das ist schon gehobene Ausstattung, etwa eine NVIDIA RTX 4070 Ti oder besser. Oder ein MacBook Pro mit M2/M3 Pro und 32 GB unified Memory. Die Apple-Chips machen hier einen erstaunlich guten Job.
Ohne dedizierte Grafikkarte? Geht auch, aber langsam. Die Modelle laufen dann über den Prozessor und den normalen Arbeitsspeicher. Ein älterer Büro-Laptop schafft kleine Modelle, aber die Antworten kommen wortweise statt im Strom. Brauchbar zum Testen, nervig zum Arbeiten. (Stand 02/2026)
Der einfachste Weg: LM Studio
LM Studio ist die Anwendung, die ich jedem empfehlen würde, der zum ersten Mal eine lokale KI ausprobieren will. Du lädst sie herunter, installierst sie, und hast eine Oberfläche, die aussieht wie ChatGPT. Nur läuft alles auf deinem Rechner.
Das Besondere: LM Studio hat einen eingebauten Modell-Browser. Du suchst dir ein Modell aus, klickst auf Download, wartest ein paar Minuten und kannst loschatten. Kein Terminal, keine Konfigurationsdateien, kein technisches Wissen nötig. Die Software erkennt automatisch deine Hardware und schlägt passende Modelle vor.
Für den Anfang empfehle ich Llama 3.3 8B oder Gemma 3. Die sind klein genug für die meisten Rechner und liefern erstaunlich gute Ergebnisse für allgemeine Fragen, Texte und Zusammenfassungen. Wer Deutsch als Schwerpunkt hat, sollte Mistral ausprobieren. Die französische Firma hat die europäischen Sprachen besser im Griff als mancher amerikanische Konkurrent.
LM Studio ist kostenlos für den persönlichen Gebrauch, aber nicht Open Source. Wem das wichtig ist, der findet mit Jan eine vollständig quelloffene Alternative mit ähnlichem Bedienkomfort.
Für Leute, die gern tippen: Ollama
Ollama ist der andere große Name. Es läuft über die Kommandozeile, du tippst einen Befehl, das Modell wird heruntergeladen und gestartet. Klingt einschüchternd, ist aber in der Praxis genau drei Zeilen:
ollama pull llama3.3
ollama run llama3.3
Das war’s. Du chattest jetzt mit Llama 3.3 in deinem Terminal. Ollama ist Open Source, hat über 100.000 Sterne auf GitHub und ist der De-facto-Standard für lokale KI-Entwicklung. Wer später seine eigene KI in andere Programme einbinden will, etwa in ein Schreibprogramm, eine Website oder ein eigenes Tool, kommt an Ollama kaum vorbei.
Der Nachteil: Ollama hat von Haus aus keine grafische Oberfläche. Man kann eine nachrüsten, etwa mit Open WebUI, aber das ist ein weiterer Schritt. Für den reinen Chat-Gebrauch ist LM Studio bequemer.
Wie viel weiß so ein Mini-Modell eigentlich?
Das ist die Frage, die sich jeder stellen sollte. Die deutsche Wikipedia als reiner Text ist rund 5 Gigabyte groß. Ein lokales 8B-Modell? Ebenfalls etwa 5 Gigabyte. Wie soll da dasselbe Wissen reinpassen?
Die Antwort: Tut es nicht. Ein Sprachmodell ist kein Nachschlagewerk. Es speichert keine Fakten in einer Datenbank, sondern komprimiert statistische Muster aus riesigen Textmengen in eine verhältnismäßig kleine Datei. Das funktioniert erstaunlich gut für Sprachgefühl, Grammatik, allgemeine Zusammenhänge und häufig abgefragte Themen. Aber konkrete Fakten wie Jahreszahlen, Namen und Detailwissen gehen bei der Kompression verloren.
Ein großes Modell wie GPT-4 oder Claude Opus hat Hunderte Milliarden Parameter und wurde mit viel größeren Datensätzen trainiert. Es kann mehr behalten, weil es schlicht mehr Platz hat. Ein 8B-Modell muss stärker komprimieren und verliert dabei Details. Es kann über die französische Revolution plausibel reden, aber die genauen Daten der einzelnen Phasen verwechselt es schon mal.
Deshalb ist die wichtigste Regel bei lokalen Modellen: Vertraue ihnen beim Formulieren, nicht beim Faktenwissen. Für Texte schreiben, überarbeiten, Brainstorming … hervorragend. Für »Wann genau wurde der Vertrag von Verdun geschlossen?« … lieber nachschlagen. Bei den großen Cloud-Modellen übrigens auch. Die haben nur eine höhere Trefferquote.
Was lokale Modelle können und was nicht
Lokale Modelle sind nicht einfach eine Offline-Version von ChatGPT. Sie sind anders.
Was gut funktioniert: Texte schreiben und überarbeiten, Zusammenfassungen, Übersetzungen, Brainstorming, einfache Programmieraufgaben, Erklärungen, Unterhaltung. Für viele Alltagsaufgaben reicht ein lokales 8B-Modell völlig aus. Besonders bei Dingen, die Privatsphäre erfordern, ist lokal schlicht besser, weil nichts das Haus verlässt. Persönliche Notizen durchsuchen, vertrauliche Dokumente zusammenfassen, sensible Texte formulieren, ohne dass ein Anbieter mitliest.
Was nicht funktioniert: Websuche (das Modell hat keinen Internetzugang), aktuelle Informationen (das Wissen endet mit dem Trainingsdatum), sehr komplexe Aufgaben, die die großen Modelle wie GPT-4o oder Claude Opus brauchen. Auch Bildgenerierung und Sprachausgabe sind lokal noch deutlich eingeschränkter als bei den Cloud-Diensten.
Keine Zensur: Fluch und Segen
ChatGPT und Claude haben Sicherheitsfilter. Frag sie nach dem Bau einer Bombe, nach extremistischer Propaganda oder nach expliziten Inhalten. Sie werden ablehnen. Manchmal zu Recht, manchmal nervig. Wer schon mal versucht hat, einen Krimi-Dialog zu schreiben, in dem jemand vergiftet wird, kennt das Problem.
Lokale Modelle haben diese Filter nicht, oder nur in stark abgeschwächter Form. Es gibt sogar Varianten, die explizit als »uncensored« im Dateinamen stehen. Die verweigern nichts. Gar nichts.
Das ist gleichzeitig einer der größten Vorteile und der offensichtlichste Nachteil. Vorteil: Keine Bevormundung bei harmlosen Anfragen. Wer einen Thriller schreibt, medizinische Texte formuliert oder juristische Szenarien durchspielt, wird nicht ständig von einem übervorsichtigen Algorithmus unterbrochen. Nachteil: Ja, man kann damit auch Bekennerbriefe formulieren lassen, extremistische Texte oder explizite Inhalte jeder Art. Das Modell unterscheidet nicht zwischen einem Romanautor und jemandem mit schlechten Absichten.
Die Verantwortung liegt beim Nutzer. Das ist kein Disclaimer, das ist die Realität. Lokale KI ist ein Werkzeug ohne eingebaute Moral, wie ein Messer, ein Auto oder das Internet selbst. Wer damit Unsinn anstellt, braucht dafür kein Sprachmodell, aber ein Sprachmodell macht es bequemer. Das sollte man wissen, bevor man es installiert.
Warum man es trotzdem machen sollte
Privatsphäre. Kein Anbieter sieht, was du fragst. Keine Nutzungsbedingungen, die sich ändern könnten. Keine Diskussion darüber, ob OpenAI oder Google deine Daten zum Training verwendet. Was auf deinem Rechner bleibt, bleibt auf deinem Rechner.
Kosten. Nach dem Download ist alles kostenlos. Keine monatlichen Abos, keine Token-Limits, keine Nachricht-Obergrenzen. Du kannst tausend Fragen pro Tag stellen, ohne dass irgendjemand eine Rechnung schickt.
Verfügbarkeit. Lokale KI funktioniert auch ohne Internet. Im Zug, im Flugzeug, im Funkloch. Wenn OpenAIs Server mal wieder überlastet sind, chattest du einfach weiter.
Verständnis. Wer einmal ein lokales Modell installiert hat, versteht besser, was KI eigentlich ist und wie sie funktioniert. Es ist keine Magie, keine Intelligenz im menschlichen Sinne. Es ist eine Datei auf deiner Festplatte, die statistisch plausible Texte erzeugt. Diese Erfahrung ist wertvoller als jedes Erklärvideo.
Eigene KI und Cloud: Die kluge Kombination
Die meisten, die lokale KI nutzen, setzen sie nicht als Ersatz ein, sondern als Ergänzung. Claude oder ChatGPT für die schweren Aufgaben, das lokale Modell für alles, wo Privatsphäre wichtig ist oder wo man schlicht kein Abo braucht.
Ein typischer Workflow: Vertrauliche Texte lokal zusammenfassen. Ideen lokal brainstormen. Den fertigen Entwurf dann mit Claude oder ChatGPT verfeinern, wenn nötig. So nutzt man die Stärken beider Welten und gibt nur die Daten aus der Hand, bei denen es einem egal ist.
Probier es aus. LM Studio installieren, ein Modell laden, eine Frage stellen. Dauert keine zehn Minuten. Und danach weißt du, ob eine eigene KI auf dem Laptop für dich Sinn ergibt. Oder ob du bei deinem bisherigen Setup bleibst. Beides ist völlig in Ordnung.