Wie funktioniert eigentlich KI-Bildgenerierung? Wenn aus Rauschen Bilder werden

KI-Bildgenerierung ist wie ein Zaubertrick, den man durchschaut. Das Ergebnis sieht spektakulär aus, der Mechanismus dahinter ist plausibel. Er lässt sich erklären. Und zwar ganz ohne Mathe, und ohne Informatikstudium.

Millionen Menschen nutzen inzwischen Werkzeuge wie Midjourney, Nano Banana oder Stable Diffusion. Die meisten tippen ihren Prompt ein, staunen über das Ergebnis und wissen nicht, was gerade passiert ist.

Das ist okay. Aber wer verstehen will, warum manche Prompts funktionieren und andere nicht, warum manche Tools »malerisch« wirken und andere »fotografisch«, warum man bei offenen Modellen mehr Kontrolle hat, der braucht ein Grundverständnis. Darum geht es hier.

Inhaltsverzeichnis

Was ein Diffusionsmodell eigentlich tut

Hinter fast allen modernen KI-Bildgeneratoren steckt dasselbe Prinzip: ein Diffusionsmodell. Der Name klingt nach Physik, und das ist auch nicht ganz falsch.

Ein Diffusionsmodell ist ein neuronales Netz, das gelernt hat, aus zufälligem Rauschen schrittweise plausible Bilder zu erzeugen. Es wurde trainiert, indem Bilder systematisch mit Rauschen überlagert wurden und das Netz lernte, diesen Prozess umzukehren.

Der Trainingsprozess läuft in zwei Phasen. Zuerst der Vorwärtsprozess: Ein echtes Bild wird in vielen kleinen Schritten mit immer mehr Rauschen überlagert, bis am Ende nur noch TV-Rauschen übrig ist. Das Netz sieht dabei jede Zwischenstufe. Im zweiten Schritt lernt es den Umkehrweg: Aus purem Rauschen, Schritt für Schritt, wieder etwas Erkennbares herausholen.

Wichtig dabei ist, das Modell lernt nicht ein konkretes Bild zurückzubauen, sondern aus Rauschen plausible Bilder zu erzeugen, die zur Trainingsverteilung passen. Es hat nie ein einzelnes Bild gespeichert. Es hat gelernt, wie Bilder aussehen.

Das klingt simpel. Ist es auch, im Prinzip. Die Raffinesse liegt im Umfang des Trainings: Modelle wie Stable Diffusion basieren auf Datensätzen mit Milliarden von Bild-Text-Paaren. Das Modell hat gelernt, wie »Katze« aussieht, wie »impressionistisch« wirkt, wie »Sonnenuntergang am Meer« sich von »Sonnenuntergang in der Wüste« unterscheidet. Nicht durch Regeln, sondern durch schiere Wiederholung.

Wie der Text-Prompt ins Bild kommt

Ein Diffusionsmodell allein würde zufällige Bilder erzeugen. Damit es gezielt auf einen Text-Prompt reagiert, braucht es eine zweite Komponente: einen Text-Encoder.

Ein Text-Encoder wandelt einen Prompt in eine mathematische Darstellung um, die das Modell versteht. Ein häufig verwendeter Ansatz heißt CLIP (Contrastive Language–Image Pretraining), entwickelt von OpenAI. CLIP hat gelernt, Texte und Bilder in denselben »Bedeutungsraum« zu übersetzen, sodass »ein schlafender Hund« und ein Foto eines schlafenden Hundes nah beieinanderliegen. Neuere Modelle nutzen eigene Varianten oder kombinieren mehrere Text-Encoder.

Während des Entrauschens steuert der Text-Encoder jeden Schritt. Er gibt dem Modell gewissermaßen die Richtung vor: Weg von beliebigem Rauschen, hin zu einem Bild, das zum Prompt passt. Je präziser der Prompt, desto enger die Richtung.

Noch eine technische Ebene, die das Ganze erst schnell macht: der sogenannte latente Raum. Aktuelle Modelle wie Stable Diffusion oder Flux arbeiten nicht auf den eigentlichen Pixeln, sondern auf einer stark komprimierten Repräsentation davon. Das Bild wird intern um ein Vielfaches reduziert. Dort findet der Entrauschungsprozess statt, viel effizienter. Erst am Ende wird das Ergebnis wieder hochskaliert. Dieser Ansatz heißt Latent Diffusion, und er ist der Grund, warum KI-Bildgenerierung heute auf normaler Hardware läuft statt auf Supercomputern.

Was bringt Flow Matching?

Aktuelle Verbesserungen gehen noch weiter. Flow Matching, eine Weiterentwicklung des Diffusionsansatzes, ermöglicht qualitativ gute Bilder in deutlich weniger Inferenzschritten. Klassische Diffusionsmodelle brauchten beim Generieren oft 50 oder mehr Schritte. Mit Flow Matching reichen bei manchen Modellen 20 oder weniger für vergleichbare Qualität. Das Ergebnis: schneller, günstiger, kaum schlechter.

Der Unterschied ist nicht nur akademisch. Weniger Schritte bedeuten weniger Rechenzeit, also niedrigere Kosten pro Bild und schnellere Ergebnisse. Wer mit KI-Kosten rechnet, merkt den Effekt.

Die wichtigsten Tools und wofür man sie nutzt

Der Markt für KI-Bildgeneratoren hat sich schnell aufgeteilt, und die Unterschiede sind real. Es lohnt sich, sie zu kennen.

Midjourney gilt als die künstlerisch stärkste Option. Die Ergebnisse sehen aus, als hätte ein erfahrener Illustrator mitgedacht. Seit 2024 gibt es eine eigene Web-Oberfläche, der Einstieg ist einfacher geworden. Der Nachteil: proprietär, nicht kostenlos, keine lokale Ausführung.

Nano Banana ist Googles Bildmodell, integriert in die Gemini-App. Seit August 2025 viral, inzwischen in der zweiten Generation (Nano Banana 2, basierend auf Gemini 3.1 Flash). Die Stärken: präzise Textdarstellung im Bild, Bildbearbeitung per Sprachbefehl und Zugriff auf Googles Weltwissen über die Suchintegration. Es gibt eine kostenlose Stufe, was den Einstieg niedrig hält. Womöglich das vielseitigste Tool im aktuellen Feld.

ChatGPT / OpenAI war mit DALL·E lange das bekannteste Bildmodell. Inzwischen hat OpenAI DALL·E in ChatGPT durch ein eigenes GPT-basiertes Bildmodell ersetzt. DALL·E selbst kommt noch bei Microsofts Bing Image Creator zum Einsatz (der hier die meisten Beitragsbilder generiert). Die Bedienung bleibt einfach: Man beschreibt, was man möchte, die KI formuliert den Prompt intern um und generiert. Praktisch, aber die Kontrolle über Details ist eingeschränkt.

Stable Diffusion setzt auf offene Modellgewichte (Open Weights). Man kann es lokal auf dem eigenen Rechner betreiben, ohne Kosten, ohne Datenweitergabe. Die Qualität ist nicht ganz so konsistent wie bei Midjourney, dafür ist die Kontrolle umfassend: eigene Modelle, Fine-Tuning, Plugins. Wer verstehen will, wie KI-Bildgenerierung funktioniert, kommt hier an die Maschine heran.

Flux, entwickelt von Black Forest Labs, ist seit 2024 der wohl technisch interessanteste Newcomer. Hervorragende Qualität, gute Textdarstellung im Bild (lange ein schwacher Punkt aller Bildmodelle). Flux gibt es in verschiedenen Varianten mit unterschiedlichen Lizenzmodellen: Flux .1 Pro ist kommerziell, Flux .1 Dev steht unter einer offeneren Lizenz. FLUX 2 verwende ich am häufigsten für Buchcover.

Adobe Firefly richtet sich an Kreativprofis im unfreien Adobe-Ökosystem. Es integriert sich in Photoshop und Illustrator und ist für kommerzielle Nutzung konzipiert, weil es laut Adobe ausschließlich auf lizenziertem Bildmaterial trainiert ist. Dafür ist die künstlerische Bandbreite kleiner.

Was einen guten Prompt ausmacht

Viele Einsteiger denken, ein Prompt müsse möglichst kurz und prägnant sein. Das Gegenteil stimmt eher. Bildgeneratoren reagieren gut auf Präzision: Stil, Lichtführung, Komposition, Stimmung, Epoche, Medium. Wer »ein Porträt einer Frau« eingibt, bekommt ein generisches Ergebnis. Wer »Porträt einer Frau im Stil des frühen 20. Jahrhunderts, weiches Seitenlicht, Ölgemälde, gedämpfte Farben« eingibt, bekommt etwas Konkretes.

Allerdings: Präzision hilft, aber je nach Modell kann weniger manchmal mehr sein. Midjourney reagiert auf kurze, stimmungsvolle Prompts oft besser als auf endlose Beschreibungen. ChatGPT und Nano Banana formulieren intern ohnehin um. Wer sich mit Prompt Engineering auskennt, hat einen Vorteil: Die Grundlogik ist dieselbe. Präzise Sprache, konkrete Details, klare Absicht.

Gute Prompts beschreiben das Bild, nicht den Wunsch. Nicht »ich möchte ein schönes Bild«, sondern: Was ist zu sehen? Aus welcher Perspektive? In welchem Stil?

Negative Prompts gibt es bei manchen Tools, nicht bei allen. Man kann explizit angeben, was im Bild nicht erscheinen soll. »Kein Text«, »keine Wasserzeichen«, »kein Unschärfehalo«. Stable Diffusion und Flux unterstützen das, ChatGPT und Nano Banana arbeiten anders. Auch das ist schlicht ein weiteres Präzisionswerkzeug.

KI-Bildgenerierung als Kulturtechnik

Es gibt eine breitere Frage hinter dem Technischen. Künstliche Intelligenz verändert, wer Bilder machen kann und zu welchem Preis. Illustrationen, die früher Stunden brauchten, entstehen in Sekunden. Das ist kein Argument für oder gegen KI-Bildgenerierung. Es ist nur ein Befund.

Interessanter ist die kulturelle Seite, denn jedes Diffusionsmodell spiegelt wider, womit es trainiert wurde. Westliche Bildästhetik dominiert, bestimmte Körperbilder werden bevorzugt reproduziert, historische Verzerrungen im Trainingsdatensatz erzeugen Verzerrungen im Output. Wer das weiß, kann reflektierter damit umgehen. Und wer das ignoriert, wundert sich, warum »Wissenschaftler« im Bild immer wieder wie derselbe Typ aussieht.

KI-Bildgenerierung ist keine neutrale Technik. Das macht sie nicht schlechter. Aber es lohnt sich, das im Hinterkopf zu behalten, wenn man das nächste Bild generiert. Generative KI erzeugt, was in den Daten steckte, nicht was in der Welt existiert.

Quellen und Daten

Ho, J. et al. (2020): Denoising Diffusion Probabilistic Models. NeurIPS 2020. arxiv.org/abs/2006.11239
Rombach, R. et al. (2022): High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arxiv.org/abs/2112.10752
Radford, A. et al. (2021): Learning Transferable Visual Models From Natural Language Supervision (CLIP). OpenAI. arxiv.org/abs/2103.00020
Lipman, Y. et al. (2023): Flow Matching for Generative Modeling. ICLR 2023. arxiv.org/abs/2210.02747