Token, was ist das? Wie KI Sprache in Bausteine zerlegt

Alle reden von Tokens, auf auf diesen Seite tue ich das ständig. Die KI rechnet in Tokens ab, das Kontextfenster wird in Tokens gemessen, Modelle werden auf Billionen davon trainiert. Nur weiß kaum jemand, was ein Token eigentlich ist. Die meisten halten es für ein anderes Wort für Wort. Aber das ist es nicht.

KI-News Studie Totgesagte programmieren länger vor 5 Stunden

Ein Token ist die kleinste Texteinheit, die ein Sprachmodell in seinem Vokabular kennt. Kein Wort, keine Silbe, irgendwas dazwischen. Und genau dieses Dazwischen erklärt eine ganze Reihe von Phänomenen, über die sich Leute täglich wundern. Warum die KI »Erdbeere« falsch buchstabiert. Warum Deutsch teurer ist als Englisch. Warum ein langes Gespräch irgendwann aus dem Ruder läuft. Hier steckt die Usache drin.

Inhaltsverzeichnis

Was genau ist ein Token in der Welt der KI?

Sprachmodelle lesen keine Buchstaben und keine Wörter. Sie lesen Tokens. Bevor dein Text das Modell überhaupt erreicht, läuft er durch einen Tokenizer, einen Zerleger, der den Text in Stücke schneidet. Diese Stücke sind die Tokens. Erst sie bekommt das Modell zu sehen, und zwar nicht als Text, sondern als Zahl. Jedes Token hat eine feste Nummer in einem Vokabular, das mehrere zehntausend bis hunderttausend Einträge umfasst.

Ein Token ist die kleinste Texteinheit, mit der ein Sprachmodell arbeitet. Es kann ein ganzes Wort sein, ein Wortteil, ein einzelnes Zeichen oder ein Satzzeichen. Der Tokenizer zerlegt jeden Text in solche Tokens und übersetzt sie in Zahlen, bevor das Modell rechnet.

Warum dieser Umweg. Ein Modell, das jeden einzelnen Buchstaben verarbeitet, wäre furchtbar langsam, weil schon ein kurzer Satz aus dutzenden Zeichen besteht. Ein Modell, das nur ganze Wörter kennt, würde an jedem Tippfehler und jedem neuen Begriff scheitern, weil das Wort dann nicht im Vokabular steht. Tokens sind der Kompromiss. Häufige Wörter bekommen ein eigenes Token, seltene werden aus mehreren Stücken zusammengesetzt. So kommt das Modell mit einem überschaubaren Vokabular aus und kann trotzdem jedes denkbare Wort darstellen, auch eines, das es nie gesehen hat.

Wie das Prinzip der Wortvorhersage darauf aufbaut, steht ausführlich im Artikel darüber, wie ChatGPT funktioniert. Hier geht es um die Schicht darunter, um den Baustein selbst.

Tippe selbst und sieh, was passiert

Theorie hilft hier nur halb. Besser, man sieht es. Der folgende Zerleger nimmt deinen Text und färbt jedes Token einzeln ein. Schreib deinen Namen rein, einen ganzen Satz, ein zusammengesetztes Ungetüm. Du wirst schnell ein Muster erkennen.

Tokens

Zeichen

Zeichen / Token

Das Leerzeichen vor einem Wort gehört zum Token. Häufige kurze Wörter bleiben ganz, lange zerfallen.

Zwei Dinge fallen sofort auf. Erstens, das Leerzeichen vor einem Wort gehört meistens zum Token dazu. Für das Modell ist » Haus« mit führendem Leerzeichen etwas anderes als »Haus« am Satzanfang. Zweitens, kurze und häufige Wörter bleiben am Stück, während lange oder seltene in mehrere Brocken zerfallen. »und« ist ein Token. »Tokenisierung« sind mehrere.

Der Zerleger hier bildet das Prinzip nach, er ist keine exakte Kopie eines echten Tokenizers. Die großen Modelle benutzen Verfahren, die die Bruchstellen aus den Trainingsdaten lernen, statt sie nach festen Regeln zu setzen. Das bekannteste heißt Byte Pair Encoding. Die Größenordnung und die Logik stimmen trotzdem.

Warum ein Wort nicht gleich ein Token ist

Die hartnäckigste Fehlannahme lautet, ein Wort sei ein Token. Das stimmt manchmal, bei kurzen, häufigen Wörtern. Aber eben nur manchmal. Ein seltenes Fachwort, ein langer Bandwurm, ein Eigenname, all das zerfällt in mehrere Tokens. Und das hat Folgen, die über reine Wortklauberei hinausgehen.

So zählt ein Mensch (Wörter)

So zählt das Modell (Tokens)

Besonders deutlich wird der Unterschied beim Sprachvergleich. Das liegt an zwei Dingen zugleich. Englischer Text ist in den Trainingsdaten massiv überrepräsentiert, deshalb haben englische Wörter öfter ein eigenes Token. Dazu kommt die Struktur des Deutschen selbst, all die zusammengesetzten Wörter, die langen Endungen. Sie zerfallen häufiger. Dasselbe inhaltlich Gemeinte kostet auf Deutsch also mehr Tokens als auf Englisch. Wer über eine Schnittstelle nach Verbrauch zahlt, merkt das auf der Rechnung. Mehr dazu, wo bei der KI das Geld hinfließt, steht im Artikel über KI-Kosten sparen.

Hier liegt auch die Erklärung für ein berühmtes Versagen. Fragt man ein Modell, wie viele R in »Erdbeere« stecken, lag es lange daneben. Nicht weil es zu dumm zum Zählen wäre, sondern weil es das Wort nie als Folge einzelner Buchstaben sieht. Es sieht zwei, drei Tokens. Die Buchstaben darin sind nicht die Ebene, auf der das Modell arbeitet. Es ist, als fragte man jemanden nach den Zutaten einer Pizza, der nur das fertige Stück kennt, nie das Rezept.

Das Kontextfenster, gemessen in Tokens

Tokens sind nicht nur die Einheit der Abrechnung, sondern auch die Einheit des Gedächtnisses. Jedes Modell hat ein Kontextfenster, eine feste Obergrenze dafür, wie viele Tokens es gleichzeitig im Blick behält. Alles, was hineinpasst, kann es verarbeiten. Alles darüber hinaus fällt hinten raus.

Das Kontextfenster ist die maximale Menge an Tokens, die ein Sprachmodell gleichzeitig verarbeiten kann. Es umfasst sowohl die Eingabe als auch die bisherige Unterhaltung. Ist das Fenster voll, verliert das Modell die ältesten Inhalte aus dem Blick.

Das erklärt, warum ein langes Gespräch mit der KI irgendwann ausfranst. Sie vergisst nicht im menschlichen Sinn, sondern der Anfang der Unterhaltung ist schlicht aus dem Fenster gerutscht. Wer das weiß, arbeitet anders. Wichtiges wiederholen, lange Dokumente in Abschnitten geben, frische Gespräche für frische Themen. Das Kontextfenster ist auch der Grund, warum präzise, knappe Prompts oft besser funktionieren. Sie verbrauchen weniger Platz. Wie viel die Formulierung ausmacht, zeigt der Artikel darüber, warum gute Prompts gutes Deutsch brauchen.

Wie viel Text steckt in wie vielen Tokens

Eine Zahl wie 128.000 Tokens sagt erstmal nichts. Ist das viel. Reicht das für ein Buch. Der folgende Schätzer übersetzt gängige Textsorten in ungefähre Tokenmengen, damit die Größenordnung greifbar wird.

Wörter

Tokens (ungefähr)

Als grobe Faustregel für deutschen Text gilt, ein Wort entspricht etwa 1,3 Tokens, hundert Wörter also rund 130 Tokens. Englisch liegt darunter. Das ist keine exakte Rechnung, aber es genügt, um ein Gefühl zu entwickeln. Eine E-Mail ist ein Klacks. Eine Hausarbeit füllt schon einen ordentlichen Teil eines mittleren Kontextfensters. Ein ganzer Roman passt bei modernen Modellen inzwischen in einen Rutsch, was vor zwei Jahren noch undenkbar war.

Token ist nicht gleich Token

Ein Wort der Vorsicht, weil der Begriff überall auftaucht und nicht immer dasselbe meint. Wer »Token« googelt, landet schnell in völlig anderen Welten. Der Aufklapp-Block sortiert die wichtigsten Bedeutungen, damit keine Verwechslung entsteht.

Die vier Bedeutungen von »Token« auf einen Blick

KI-Token	Die kleinste Texteinheit in Sprachmodellen. Darum geht es in diesem Artikel.
Krypto-Token	Eine digitale Werteinheit auf einer Blockchain, etwa bei Ethereum. Hat mit Sprache nichts zu tun.
Security-Token	Ein Zugangsschlüssel beim Login, oft als kleiner Code oder Hardware-Stick. Bestätigt, dass du du bist.
Token, klassisch	Aus dem Englischen, ursprünglich ein Zeichen oder Pfand. Davon stammen alle übrigen Bedeutungen ab.

Die Verwirrung ist verständlich, denn alle vier teilen denselben Wortstamm. Im Kern bedeutet Token ein stellvertretendes Zeichen, etwas, das für etwas anderes steht. Beim Sprachmodell steht das Token für ein Stück Bedeutung, bei der Blockchain für einen Wert, beim Login für eine Berechtigung. Wer in einem KI-Text über Tokens stolpert, meint fast immer die erste Variante.

Warum sich das Verständnis lohnt

Tokens wirken wie ein technisches Detail, das man getrost den Entwicklern überlassen kann. Sind sie aber nicht. Wer versteht, dass die KI in Tokens denkt und nicht in Wörtern, versteht plötzlich eine Menge Eigenarten auf einen Schlag. Warum manche Aufgaben mit Buchstaben scheitern. Warum dieselbe Frage mal mehr, mal weniger kostet. Warum lange Chats den Faden verlieren. Und warum bei agentischer KI die Kosten explodieren können, weil dort Tokens nicht addiert, sondern in Schleifen multipliziert werden.

Das Token ist nicht das Wort der Maschine. Es ist ihr Alphabet, ihre Währung und ihr Gedächtnis in einem. Wer das einmal gesehen hat, tippt nie wieder ahnungslos eine Frage ins Chatfenster. Wer noch tiefer einsteigen will, findet die Nachbarbegriffe im Überblick zum Prompt Engineering. Wer es ausprobieren mag, kann seinen eigenen Text durch den offiziellen Tokenizer von OpenAI schicken und mit dem Zerleger hier oben vergleichen. (lk)