Die Geschichte der Künstlichen Intelligenz – von Turing bis zum Transformer

Die Geschichte der Künstlichen Intelligenz beginnt nicht mit ChatGPT. Nicht mit dem iPhone. Nicht einmal mit dem Internet. Sie hat ihren Ursprung schon in den 1930er Jahren, bei einem britischen Mathematiker, der sich fragte, ob Maschinen denken können.

Was danach kam, war ein Hin und Her aus Euphorie und Ernüchterung, aus Milliarden-Förderungen und komplettem Förderstopp, aus grandiosen Versprechen und gescheiterten Programmen.

Lerne die Bildungssprache! Das praktische Handbuch schlauer Wörter unterstützt dich mit über 1.600 durchdachten Einträgen. Besser verstehen und klüger schreiben. Verständliche Erläuterungen und lebensnahe Beispiele erleichtern das Einprägen. Jetzt ansehen

Erst nach über sieben Jahrzehnten kam zusammen, was zusammengehörte: genug Daten, ordentliche Rechenleistung, die richtige Architektur. Und plötzlich funktionierte es.

Inhaltsverzeichnis

Bevor es Computer gab, gab es die Idee

Alan Turing legte den Grundstein, bevor überhaupt ein brauchbarer Computer existierte. Seine universelle Turing-Maschine von 1936 war im Kern ein Gedankenexperiment, das zeigte: Jede berechenbare Aufgabe lässt sich auf ein formales Verfahren zurückführen. Das klingt abstrakt, war aber die Basis für alles, was danach kam.

Während des Zweiten Weltkriegs bewies Turings Arbeit an Entzifferungsmaschinen, dass mechanische Systeme komplexe logische Operationen schneller erledigen als Menschen. 1950 folgte sein berühmter Aufsatz »Computing Machinery and Intelligence«, in dem er den Turing-Test vorschlug: Wenn ein Mensch in einer textbasierten Unterhaltung nicht unterscheiden kann, ob er mit einem Menschen oder einer Maschine spricht, dann muss man der Maschine Intelligenz zuschreiben. Pragmatisch statt philosophisch. Typisch Turing.

Fast gleichzeitig begannen andere, das Gehirn als Vorbild zu nehmen. Warren McCulloch und Walter Pitts entwickelten 1943 ein mathematisches Modell künstlicher Neuronen. Donald Hebb lieferte 1949 die Theorie dazu, wie solche Neuronen lernen könnten. Die Kurzfassung: Was gleichzeitig feuert, verdrahtet sich. Das war der Anfang dessen, was später als Konnektionismus bekannt wurde.

1956, Dartmouth – der Name wird geboren

Der offizielle Startschuss fiel im Sommer 1956 an der Dartmouth University. John McCarthy, Marvin Minsky, Claude Shannon und Nathaniel Rochester versammelten rund ein Dutzend Forscher zu einem Workshop, der sechs bis acht Wochen dauerte. Das Ziel war bescheiden formuliert und maßlos ambitioniert zugleich: Man wollte herausfinden, wie Maschinen Sprache verwenden, Abstraktionen bilden und sich selbst verbessern können.

McCarthy wählte den Begriff »Artificial Intelligence« bewusst. Er wollte sich von der Kybernetik abgrenzen, die damals auf analogem Feedback und biologischen Vergleichen beruhte. Und er wollte nicht im Schatten von Norbert Wiener stehen, dessen Einfluss ihm zu dominant war. Ein politischer Schachzug, der funktionierte. Der Name blieb.

Arthur Samuel präsentierte im Umfeld des Workshops sein Checkers-Programm, eines der ersten selbstlernenden Programme überhaupt. Er prägte nebenbei einen weiteren Begriff, der Karriere machte: Machine Learning.

Zwei Denkschulen, ein Kampf über Jahrzehnte

Von Anfang an spaltete sich die KI-Forschung in zwei Lager, die unterschiedlicher kaum sein konnten.

Die symbolische KI ging davon aus, dass Intelligenz im Kern Logik ist. Man programmiert Regeln, füttert Fakten ein, und die Maschine zieht Schlüsse. Allen Newell und Herbert Simon bauten den »Logic Theorist« und den »General Problem Solver«, Programme, die menschliche Problemlösungsstrategien formalisieren sollten. Das funktionierte in strukturierten Umgebungen: mathematische Beweise, einfache Spiele, eine virtuelle Klötzchenwelt. Aber die echte Welt ließ sich nicht so einfach in Wenn-Dann-Regeln übersetzen.

Der Konnektionismus verfolgte einen grundlegend anderen Ansatz. Statt Regeln zu programmieren, sollten Netzwerke aus Knoten, die dem Nervensystem nachempfunden waren, Muster aus Daten lernen. Frank Rosenblatt stellte 1957 sein Perzeptron vor, eine Art primitive Neuro-Maschine für Bilderkennung. Die Presse war begeistert.

Die Ernüchterung lieferten 1969 ausgerechnet zwei Dartmouth-Veteranen. Marvin Minsky und Seymour Papert zeigten in ihrem Buch »Perceptrons« mathematisch, dass einfache Perzeptrons fundamentale Probleme wie die XOR-Funktion nicht lösen konnten. Die Wirkung war verheerend: Die Förderung konnektionistischer Forschung brach für über ein Jahrzehnt ein. Nicht weil die Hardware fehlte, sondern weil der konzeptionelle Angriff saß.

Was sind die KI-Winter?

Die Geschichte der Künstlichen Intelligenz kennt Zyklen, die an Börsencrashs erinnern. Erst die Euphorie, dann der Absturz, dann jahrelange Stagnation, während sich im Verborgenen die nächste Hausse aufbaut. Man nennt sie KI-Winter.

Der erste dauerte von 1974 bis etwa 1980. Die Programme dieser Zeit waren im Grunde Spielzeuge, die nur in trivialen Domänen funktionierten. Die Rechenleistung reichte bei weitem nicht aus, um die kombinatorische Explosion von Suchräumen zu bewältigen. In Großbritannien führte der Lighthill-Report zu einem fast vollständigen Förderstopp.

In den 1980ern kamen die Expertensysteme. Unternehmen versuchten, das Entscheidungswissen ihrer besten Leute in Software zu gießen. In engen Nischen funktionierte das sogar: XCON bei DEC konfigurierte erfolgreich Computersysteme, medizinische Expertensysteme unterstützten Diagnosen. Aber die Systeme waren spröde, sie versagten bei jeder Abweichung von den programmierten Regeln. Das implizite Wissen von Menschen ließ sich kaum in explizite Regeln übersetzen, und die Wartung der wachsenden Regelwerke fraß Ressourcen. Gesunder Menschenverstand? Den hatte keines dieser Systeme.

Es folgte der zweite KI-Winter, von 1987 bis 1993. Großprojekte wie »Cyc«, der Versuch, alles menschliche Alltagswissen manuell zu kodieren, brachten nicht den versprochenen Durchbruch. Cyc läuft bis heute weiter, aber die Erwartungen von damals hat es nie erfüllt. Das Geld versiegte. Die Forscher wandten sich anderen Themen zu.

Die stille Wende der 1990er Jahre

Während die Öffentlichkeit das Interesse verlor, passierte im Hintergrund etwas Entscheidendes. Drei Entwicklungen liefen parallel, ohne dass jemand ahnte, wie sie zusammenwirken würden.

1986 machten David Rumelhart, Geoffrey Hinton und Ronald Williams den Backpropagation-Algorithmus bekannt. Er ermöglichte es, mehrschichtige neuronale Netzwerke zu trainieren, indem Fehler von der Ausgabe zurück durch die Schichten geleitet wurden. 1989 nutzte Yann LeCun dieses Verfahren zusammen mit Convolutional Neural Networks, um handgeschriebene Postleitzahlen auf Briefumschlägen zu erkennen. Deep Learning funktionierte. Allerdings nur in engen Bereichen.

1997 besiegte IBMs Deep Blue den amtierenden Schachweltmeister Garry Kasparov. Das war ein Medienereignis, aber im Kern kein Durchbruch für die KI im heutigen Sinne. Deep Blue rechnete 200 Millionen Positionen pro Sekunde durch, das war rohe Gewalt, keine Intelligenz. Trotzdem bewies der Sieg, dass spezialisierte Hardware menschliche Spitzenleistungen übertreffen konnte.

2012 – das Jahr, in dem alles zusammenkam

Am 30. September 2012 gewann ein Modell namens AlexNet die ImageNet-Challenge, einen Wettbewerb zur Bilderkennung. Der Vorsprung war so groß, fast 10 Prozentpunkte vor dem nächsten Konkurrenten, dass er die gesamte KI-Forschung in Richtung Deep Learning verschob.

Kein Zufall. Drei Dinge trafen zusammen.

Erstens, die Daten. Fei-Fei Li hatte ab 2007 ImageNet aufgebaut, eine Datenbank mit über 12 Millionen Bildern in 22.000 Kategorien. Um sie zu labeln, beschäftigte ihr Team über 49.000 Arbeitskräfte aus 167 Ländern über Amazon Mechanical Turk. Ohne diesen Datensatz hätten die Netze nicht tief genug trainiert werden können.

Zweitens, die GPUs. Neuronale Netze bestehen im Kern aus Milliarden von Matrixmultiplikationen. Normale Prozessoren arbeiten diese nacheinander ab. Grafikprozessoren hingegen erledigen tausende kleine Aufgaben gleichzeitig. Alex Krizhevsky trainierte AlexNet auf zwei handelsüblichen NVIDIA-Grafikkarten. Andrew Ng hatte bereits gezeigt, dass 12 GPUs die Rechenleistung von 2.000 CPUs ersetzen konnten.

Drittens, die Algorithmen. AlexNet nutzte die ReLU-Aktivierungsfunktion statt der üblichen Sigmoid-Funktionen. Mathematisch einfacher, trainierte das Netz sechsmal schneller. Dazu kamen Techniken wie Dropout, die das Modell robuster machten.

Daten, Hardware, Algorithmen. Einzeln nützlich, zusammen womöglich die wichtigste Kombination der Technologiegeschichte.

Von der Erkennung zur Erzeugung

Nach 2012 konnten Modelle erkennen, was auf einem Bild zu sehen ist oder welches Wort gesprochen wurde. Aber sie konnten nichts erzeugen. Das änderte sich 2014, als Ian Goodfellow die Generative Adversarial Networks vorstellte, kurz GANs. Die Idee ist spieltheoretisch elegant: Zwei neuronale Netze treten gegeneinander an. Der Generator erzeugt Bilder, der Diskriminator versucht, Fälschungen von Originalen zu unterscheiden. Durch diesen Wettbewerb werden beide besser, bis der Unterschied nicht mehr erkennbar ist.

Später folgten Diffusionsmodelle, die heute hinter Systemen wie Midjourney und Stable Diffusion stecken. Ihr Ansatz ist anders: Sie lernen, wie man Rauschen schrittweise aus einem Bild entfernt, bis ein klares Motiv entsteht. Rechenintensiver als GANs, dafür stabiler und vielfältiger.

Warum war der Transformer so wichtig?

Bilder konnte man ab 2012 gut verarbeiten. Sprache blieb schwierig. Rekurrente neuronale Netze verarbeiteten Text Wort für Wort, also nacheinander. Bei langen Sätzen ging der Kontext vom Anfang verloren, bevor das Modell beim Ende ankam.

Im Juni 2017 veröffentlichte ein Google-Team das Paper »Attention Is All You Need«, das die Transformer-Architektur einführte. Die Kernidee: Man verzichtet komplett auf die Verarbeitung nacheinander und nutzt stattdessen den Self-Attention-Mechanismus. Jedes Wort eines Satzes wird gleichzeitig verarbeitet. Jedes Wort berechnet seine Beziehung zu jedem anderen Wort im gesamten Kontext.

In dem Satz »Die Bank war schattig, weil sie unter einem Baum stand« erkennt der Transformer sofort, dass sich »sie« auf »Bank« bezieht und »Bank« hier ein Möbelstück ist. Kein Finanzinstitut. Das klingt trivial, war aber für bisherige Modelle ein echtes Problem.

Transformer ließen sich auf GPUs massiv parallelisieren, das Training wurde um ein Vielfaches schneller. Und sie skalierten: Mehr Parameter, mehr Daten, bessere Ergebnisse. Aber die Architektur allein reichte nicht. Die großen Sprachmodelle, die wir heute nutzen, entstanden erst durch das Zusammenspiel von Transformern mit riesigen Textkorpora, Instruction Tuning und Reinforcement Learning from Human Feedback (RLHF). Der Transformer war das Fundament, das Gebäude darauf hat viele Architekten.

Skalierung und das Auftauchen neuer Fähigkeiten

Nach dem Transformer setzte ein Wettlauf ein. Forscher bei OpenAI zeigten 2020, dass die Leistung von Sprachmodellen einer erstaunlich präzisen mathematischen Gesetzmäßigkeit folgt: Je mehr Parameter, je mehr Daten und je mehr Rechenleistung, desto besser das Ergebnis. Nicht linear, sondern als Potenzgesetz.

DeepMinds Chinchilla-Studie von 2022 korrigierte die Perspektive. Nicht die schiere Modellgröße war entscheidend, sondern das Verhältnis von Parametern zu Trainingsdaten. GPT-3 mit seinen 175 Milliarden Parametern war demnach untertrainiert. Kleinere Modelle, die länger und mit mehr Daten trainiert wurden, konnten ebenso gut oder besser abschneiden.

Was dabei auftauchte, war womöglich das Erstaunlichste an der ganzen Entwicklung. Ab einer bestimmten Skala entwickelten die Modelle plötzlich Fähigkeiten, für die sie nicht trainiert worden waren. Ein Modell mit 10 Milliarden Parametern scheitert an einer Aufgabe, ein Modell mit 100 Milliarden löst sie mit hoher Genauigkeit. Logisches Schließen, Programmieren, komplexe Arithmetik. Man nennt das emergente Fähigkeiten, auch wenn inzwischen Forscher bei Google und Meta argumentieren, dass ein Teil davon Messartefakte sein könnten, verursacht durch die Wahl der Benchmarks und ihrer Schwellenwerte. Die Debatte läuft. Prompt Engineering wurde jedenfalls zur neuen Schlüsselkompetenz.

November 2022 – der ChatGPT-Moment

Die Technik war da, aber die Öffentlichkeit wusste davon nichts. Das änderte sich am 30. November 2022, als OpenAI ChatGPT veröffentlichte. Kein neues Forschungspaper, kein Fachvortrag. Einfach eine Website, auf der man mit einer KI reden konnte. Jeder. Kostenlos.

Fünf Tage später hatte ChatGPT eine Million Nutzer. Nach zwei Monaten waren es über 100 Millionen. Kein digitales Produkt hatte jemals so schnell so viele Menschen erreicht. Instagram brauchte dafür zweieinhalb Jahre, TikTok neun Monate.

Im Kern war ChatGPT nichts grundlegend Neues. Es basierte auf GPT-3.5, einem Transformer-Modell, das OpenAI durch Reinforcement Learning from Human Feedback (RLHF) verfeinert hatte. Die Technik existierte seit Jahren. Aber die Verpackung machte den Unterschied: ein simples Chatfenster, das auf natürliche Sprache reagierte und einigermaßen vernünftige Antworten gab. Das konnte jeder ausprobieren, ohne eine API zu verstehen oder Python zu können.

Was folgte, war ein Wettlauf, der bis heute anhält. Google brachte Bard auf den Markt, das inzwischen Gemini heißt. Anthropic veröffentlichte Claude. Meta stellte seine Llama-Modelle als Open Source bereit. Mistral in Frankreich, DeepSeek in China. Innerhalb weniger Monate entstand eine ganze Industrie.

Im März 2023 folgte GPT-4, das in vielen Benchmarks menschliches Niveau erreichte. Bilder verstehen, komplexe Texte analysieren, Code schreiben, der tatsächlich funktioniert. Die Fortschritte von einer Modellgeneration zur nächsten waren so groß, dass selbst Fachleute überrascht waren.

ChatGPT hat die Geschichte der Künstlichen Intelligenz nicht erfunden. Aber es hat sie für alle sichtbar gemacht. Und das veränderte alles, von der Schule über die Universität bis zum Arbeitsmarkt. Womöglich war das der wichtigste Moment seit Dartmouth 1956.

Software 2.0 – ein neues Paradigma

Andrej Karpathy, damals bei Tesla, brachte 2017 einen Begriff in Umlauf, der die Verschiebung auf den Punkt bringt: Software 2.0. In der klassischen Programmierung schreibt der Mensch jede Zeile Code. In Software 2.0 schreibt sich der Code durch Optimierung selbst. Der »Quellcode« besteht aus zwei Dingen: dem Datensatz, der das gewünschte Verhalten definiert, und der Architektur, die den Suchraum eingrenzt.

Das Training des Modells entspricht dem Kompiliervorgang. Das Ergebnis ist eine Art Binärdatei aus Milliarden von Gewichten. In Bereichen wie Bilderkennung und Übersetzung hat dieser Ansatz den handgeschriebenen Code fast vollständig ersetzt.

Das ist im Kern die Erkenntnis, die hinter dem heutigen KI-Boom steckt: Intelligenz muss nicht programmiert werden. Sie kann aus genügend Daten und Rechenleistung emergieren. Das verändert nicht nur die Softwareentwicklung, sondern die Art, wie wir mit diesen Werkzeugen arbeiten.

Von Chatbots zu Agenten

Die aktuelle Entwicklung geht weg vom Sprachmodell, das auf Eingaben wartet, hin zu Systemen, die eigenständig handeln. Agentic AI nennt sich das. Statt auf einen Prompt zu reagieren, planen solche Systeme mehrere Schritte im Voraus, nutzen Werkzeuge und passen ihr Verhalten an. Das ist nicht mehr nur Text generieren, das ist Probleme lösen.

Nicht als geplantes Ziel, sondern als späte Annäherung an ein Ideal, das 1956 in Dartmouth formuliert wurde: eine Maschine, die nicht nur rechnet, sondern durch Beobachtung und Interaktion etwas entwickelt, das wie Verständnis aussieht. Der Weg dahin war nicht zielgerichtet, sondern kontingent, wirtschaftsgetrieben und voller Sackgassen. Dass er überhaupt hierher geführt hat, ist eher erstaunlich als selbstverständlich.

Was bleibt

Keine einzelne Erfindung hat die Geschichte der Künstlichen Intelligenz hervorgebracht. Es war das Zusammentreffen von theoretischen Modellen aus den 1940er Jahren, dem Datenpool des Internets und der spezialisierten Hardware des Gaming-Marktes. Turing lieferte die Theorie, die Gaming-Industrie lieferte die GPUs, das Internet lieferte die Daten. Dass diese drei Dinge zusammenfanden, war nicht geplant. Es dauerte sieben Jahrzehnte.

Die klügsten Sätze über KI haben übrigens nicht immer die Entwickler gesagt. Und im Alltag ist die Technik längst angekommen, auch wenn sich das nicht immer so anfühlt. Die Geschichte der Künstlichen Intelligenz ist jedenfalls noch lange nicht zu Ende. Nur sollte sich niemand darauf verlassen, dass der nächste Durchbruch wieder siebzig Jahre braucht.

Quellen und Daten

Dartmouth College: Artificial Intelligence Coined at Dartmouth · Minsky/Papert (1969): Perceptrons · Pinecone: AlexNet and ImageNet – The Birth of Deep Learning · NVIDIA Blog: Accelerating AI with GPUs · Vaswani et al. (2017): Attention Is All You Need · Kaplan et al. (2020): Scaling Laws for Neural Language Models · Hoffmann et al. (2022): Training Compute-Optimal Large Language Models (Chinchilla) · Karpathy (2017): Software 2.0 · OpenAI (2023): GPT-4 Technical Report · Reuters (2023): ChatGPT Sets Record for Fastest-Growing User Base · Wei et al. (2022): Emergent Abilities of Large Language Models