GLM-5.2 — das offene KI-Modell, das die teuren Amerikaner ärgert

753 Milliarden Parameter, eine Million Token Kontext, 1,40 Dollar pro Million Token Eingabe. Und der Download kostet nicht einmal etwas. Wow. Im Juni 2026 hat das Pekinger Unternehmen Zhipu AI, international als Z.ai unterwegs, ein Modell freigegeben, das in mehreren Programmier-Benchmarks an Claude Opus und GPT-5.5 heranreicht. Zum Bruchteil des Preises, ohne Abo, ohne Regionalsperre. Die Frage ist, ob es im Alltag hält, was die Zahlen versprechen.

KI-News Infrastruktur OpenAI halbiert heimlich die Rechenkosten für Gratis-ChatGPT vor 21 Minuten

Inhaltsverzeichnis

Der Zeitpunkt war kein Zufall. Zwei Tage vorher hatte die US-Regierung Anthropic angewiesen, seine stärksten Modelle Fable 5 und Mythos 5 für Nutzer außerhalb der USA zu sperren, binnen 48 Stunden, ohne Einspruchsmöglichkeit. Am Tag der Sperre kündigte Zhipu die quelloffene Freigabe von GLM-5.2 an. Ein Modell unter freier Lizenz lässt sich nirgends sperren. Das ist der eigentliche Witz an der Sache.

Was GLM-5.2 eigentlich ist

GLM-5.2 ist das dritte Modell der GLM-5-Reihe, freigegeben am 13. Juni 2026. Es ist gebaut für das, was die Branche »agentisches« Arbeiten nennt. Also nicht nur antworten, sondern über lange Strecken planen, Werkzeuge bedienen, Code über viele Dateien hinweg ändern. Ein Modell für Coding-Agenten, weniger für den schnellen Chat zwischendurch.

Technisch ist es ein Mixture-of-Experts-Modell. Insgesamt rund 744 bis 753 Milliarden Parameter, je nach Zählweise, aber pro Anfrage sind nur etwa 40 Milliarden aktiv. Der Rest schaut zu. Dieses Prinzip kennt man schon von DeepSeek und Qwen, es senkt die Rechenkosten drastisch, ohne die Fähigkeiten eines großen Modells aufzugeben.

Mixture-of-Experts (MoE) ist eine Modellarchitektur, bei der nur ein Bruchteil aller Parameter pro Anfrage aktiviert wird. Statt das gesamte Netz für jede Antwort zu nutzen, wählt das Modell spezialisierte Teilbereiche aus. Das senkt die Rechenkosten, ohne die Größe des Gesamtmodells zu opfern.

Die Gewichte stehen unter MIT-Lizenz auf Hugging Face. MIT ist eine der freundlichsten Lizenzen überhaupt, dieselbe, unter der auch React und Node.js liegen. Man darf das Modell herunterladen, verändern, kommerziell nutzen, lokal betreiben. Keine Auflagen, keine Sperren, kein Drittland-Problem.

Zeittafel: die GLM-5-Familie 2026

8. Jan 2026	Zhipu AI geht an die Börse in Hongkong
6. Feb 2026	Anonymer Stealth-Launch als »Pony Alpha« auf OpenRouter, schnell als Zhipu-Modell erkannt
12. Feb 2026	GLM-5 offiziell, 744B MoE, 200K Kontext, MIT-Lizenz
Apr 2026	GLM-5.1, besser bei langen Inferenzketten, Kontext noch limitiert
12. Jun 2026	USA sperren Anthropics Fable 5 und Mythos 5 für Ausländer
13. Jun 2026	GLM-5.2 mit 1 Million Token Kontext, MIT-Lizenz

Die eine Million Token, die wirklich nutzbar ist

Der größte Sprung gegenüber dem Vorgänger ist das Kontextfenster. GLM-5.1 lag bei rund 200.000 Token, GLM-5.2 schafft eine Million. Das ist etwa fünfmal so viel. In der Praxis heißt das, man kann eine mittelgroße Codebasis komplett ins Modell laden und Zusammenhänge über das gesamte Verzeichnis hinweg erfassen lassen, statt sich mühsam relevante Schnipsel zusammenzusuchen.

Große Kontextfenster versprechen viele. Das Problem liegt selten in der Zahl, sondern darin, ob das Modell den Inhalt am Ende noch sauber verarbeitet oder im hinteren Teil den Faden verliert. Genau das ist ein verwandtes Problem zu der Beobachtung, dass längere Chats die Antwortqualität drücken. Zhipu hat nach eigenen Angaben viel Arbeit in die Stabilität bei langen Sequenzen gesteckt, und unabhängige Tester bescheinigen dem Fenster, dass es deutlich stabiler arbeitet als bei vielen Konkurrenzmodellen.

Der technische Trick dahinter heißt IndexShare. Vereinfacht gesagt teilen sich jeweils mehrere Modellschichten dieselbe Vorauswahl, welche früheren Token überhaupt beachtet werden müssen. Das spart Rechenaufwand und macht das Eine-Million-Fenster überhaupt erst bezahlbar. Dazu kommt eine verbesserte Vorhersageschicht, die mehrere Token gleichzeitig schätzt und die Ausgabe spürbar beschleunigt.

Was GLM-5.2 in den Benchmarks leistet

Zhipu hat GLM-5.2 ohne offizielle Benchmark-Suite veröffentlicht, was viele Beobachter kritisiert haben. Die frühen Zahlen stammen daher überwiegend aus unabhängigen Tests und aus selbst gemeldeten Werten. Mit dieser Einschränkung im Hinterkopf zeigt sich ein klares Bild. Bei Programmieraufgaben ist es das stärkste offene Modell am Markt, bei manchen Aufgaben liegt es nur wenige Punkte hinter den geschlossenen Spitzenmodellen.

Auf dem Intelligence-Index des unabhängigen Analysehauses Artificial Analysis erreicht GLM-5.2 einen Wert von 51 und ist damit das höchstbewertete offene Modell, vor DeepSeek V4 Pro und Kimi K2.6. Bei Benchmarks lohnt allerdings immer ein skeptischer Blick, denn die Bedingungen im Labor sagen nur begrenzt etwas über den Alltag aus.

Benchmark	GLM-5.2	GLM-5.1	Claude Opus 4.8	GPT-5.5
SWE-bench Pro (reale GitHub-Issues)	62,1%	58,4%	69,2%	58,6%
Terminal-Bench 2.1	81,0%	63,5%	85,0%	84,0%
FrontierSWE (Langzeit-Projekte)	74,4%	30,5%	75,1%	72,6%
MCP-Atlas (Werkzeugnutzung)	76,8%	71,8%	77,8%	75,3%
GPQA-Diamond (Wissenschaften)	91,2%	86,2%	93,6%	93,6%

Werte aus unabhängigen Tests und Herstellerangaben, Stand 06/2026. Ein einzelner Prozentpunkt sagt wenig, das Muster aber durchaus.

Bemerkenswert ist vor allem die Nähe zu Claude Opus 4.8 bei der Werkzeugnutzung und bei langfristigen Projekten. Genau das ist die Disziplin, in der teure Modelle bisher klar vorne lagen. Bei reinen Chat-Aufgaben und im Deutschen bleibt GLM-5.2 dagegen hinter den westlichen Modellen, und multimodal ist es nicht. Es versteht keine Bilder, nur Text. Wer ein Modell für flüssige deutsche Prosa sucht, ist hier falsch.

Was GLM-5.2 kostet

Über die API liegt GLM-5.2 bei rund 1,40 Dollar pro Million Token Eingabe und 4,40 Dollar für die Ausgabe. Zum Vergleich, GPT-5.5 liegt bei etwa 5 zu 30 Dollar, Claude Opus bei 5 zu 25. Das ist grob ein Sechstel der Kosten für eine Leistung, die je nach Aufgabe nah herankommt. Für Einzelnutzer mit Abo ist das kaum spürbar, für Projekte mit hohem Token-Verbrauch macht es den Unterschied zwischen machbar und unbezahlbar.

Einen Haken gibt es bei den Abo-Tarifen des GLM Coding Plans. GLM-5.2 verbraucht das Kontingent zu Stoßzeiten dreifach, also zwischen 14 und 18 Uhr Pekinger Zeit, sonst zweifach. Bis Ende September läuft eine Aktion, die den Verbrauch außerhalb der Stoßzeiten auf den einfachen Satz senkt. Wer die Mechanik der KI-APIs und ihre Abrechnung kennt, weiß, worauf zu achten ist. Das große Kontextfenster ist bequem, kostet aber Token, und Token kosten Geld.

Lokal betreiben und der Datenschutz

Der eigentliche Vorteil eines offenen Modells zeigt sich beim Datenschutz. Wer GLM-5.2 über die offizielle API nutzt, schickt seine Anfragen an Server, die außerhalb der EU liegen. Wer das Modell lokal oder in einem europäischen Rechenzentrum betreibt, behält die Kontrolle. Quellcode, interne Logs, Kundendaten verlassen das Haus nicht. Für alle, die mit der DSGVO im Nacken arbeiten, ist das ein echtes Argument.

Der Haken liegt in der Hardware. Ein Modell dieser Größe läuft nicht auf einem Laptop. Es gibt quantisierte Versionen, die den Speicherbedarf senken, aber bei langen Kontexten wird selbst potente Consumer-Hardware schnell zur Bremse. Wer eine eigene KI auf dem Rechner betreiben will, greift realistisch eher zu kleineren Modellen wie Google Gemma. GLM-5.2 lokal ist etwas für Server, nicht fürs Notebook.

Bleibt die Frage der Filterung, die bei chinesischen Modellen reflexhaft aufkommt. GLM filtert zu politisch heiklen Themen anders als ein US-Modell, schmaler und härter an den bekannten Stellen. Westliche Modelle filtern auch, nur breiter und an anderen Stellen, was im deutschsprachigen Alltag seltener auffällt. Der Unterschied ist einer der Richtung, nicht des Vorhandenseins.

Praktisch entschärft sich der Punkt beim offenen Modell ohnehin, denn die sichtbare Filterung sitzt meist als Schicht vor dem Modell und fällt beim lokalen Betrieb einfach weg. Was bleibt, ist die Prägung in den Trainingsdaten, und die steckt in jedem Modell, im chinesischen wie im westlichen. Für Code und Analyse spielt das keine Rolle, bei historischen oder politischen Fragen lohnt der Gegencheck, bei jedem Modell.

Für wen sich GLM-5.2 lohnt

Für Studenten und Privatnutzer, die einfach einen Chatbot wollen, ist GLM-5.2 das falsche Werkzeug. Da bleiben Claude, ChatGPT oder die kostenlosen Tiers der großen Anbieter die bessere Wahl, schon weil sie besseres Deutsch schreiben und Bilder verstehen.

Interessant wird GLM-5.2 dort, wo viel Code, große Kontexte und Kostendruck zusammenkommen. Entwickler, die ihre Werkzeuge mit einer datenschutzkonformen Alternative füttern wollen, ohne Vendor-Lock-in und ohne das Risiko, dass ein API-Zugang über Nacht gesperrt wird. Genau diese Sperre hat das Modell ja erst ins Rampenlicht gebracht.

Womit GLM-5.2 vor allem eines zeigt, der Abstand zwischen offenen und geschlossenen Spitzenmodellen ist 2026 deutlich kleiner geworden. Nicht weil das offene Modell überall gewinnt, sondern weil es nah genug herankommt und dabei ein Sechstel kostet. Genau in dem Moment, in dem die USA ihre besten Modelle wegsperren, verschiebt sich ein Stück Verhandlungsmacht zur quelloffenen Seite. Das dürfte den Amerikanern weniger gefallen als den Nutzern. (lk)

Quellen

Z.ai’s open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks – VentureBeat, Benchmarks und Architektur
Zhipu AI releases GLM-5.2 open-weight AI model – DataNorth, Lizenz, Preise, Kontext
GLM-5.2 beats even Google’s top models – Trending Topics, Intelligence Index und Börsengang
Zhipu AI Open-Sources GLM-5.2 – Pandaily, Hintergrund zur Exportsperre
Zhipu AI GLM-5.2 Launches With 1M-Token Context – aiHola, Quota-Multiplikatoren und Reasoning-Modi