
Claude und Bilder – das ist eine Beziehung mit klaren Grenzen und überraschenden Möglichkeiten. Claude kann keine Bilder erzeugen. Keine Fotos, keine Illustrationen, keine Grafiken im Pixelformat.
Was Claude inzwischen sehr wohl kann, ist Diagramme und SVG-Vektorgrafiken direkt rendern. Anthropic nennt das bewusst nicht Bildgenerierung, sondern vergleicht es mit einem eigenen Whiteboard. Und was Claude ohnehin kann: Bilder verstehen, analysieren, beschreiben und in Workflows einbauen, bei denen andere Tools die eigentliche Bilderzeugung übernehmen.
Wer beides zusammenbringen will, kann das auf verschiedene Weise machen.
Inhaltsverzeichnis
Was Claude mit Bildern kann
Claude sieht Bilder. Wer ein Foto, einen Screenshot oder eine Grafik hochlädt, bekommt eine Analyse, die oft treffsicher ist. Das funktioniert in der Weboberfläche, in der App, über die API und in Cowork.
Praktisch heißt das: Claude kann Alt-Texte für Websites schreiben, Bildinhalte zusammenfassen, Diagramme interpretieren, Designentwürfe bewerten oder Bildserien vergleichen. Für alle, die regelmäßig mit Bildern arbeiten, ist das bereits nützlich.
Seit März 2026 kommt eine eigene Fähigkeit hinzu. Claude kann Charts, Schaubilder und SVG-Vektorgrafiken selbst erzeugen und direkt in der Antwort anzeigen, auf Wunsch oder von sich aus, wenn ein Visual die Erklärung trägt. Technisch entsteht das aus HTML und XML-Vektorcode, nicht aus Pixeln. Genau deshalb zählt Anthropic es nicht zur Bildgenerierung. Für Schaubilder, Ablaufdiagramme oder einfache Illustrationen reicht es trotzdem oft aus.
Was fehlt, ist der umgekehrte Weg. Aus einer Beschreibung ein Foto machen – das geht nicht. Zumindest nicht direkt.
Der Hugging-Face-Weg
Die derzeit eleganteste Lösung läuft über MCP, das Model Context Protocol. Es ist ein offener Standard, über den Claude externe Dienste als Werkzeuge einbinden kann. Hugging Face betreibt einen solchen MCP-Server mit Zugang zu Bildgeneratoren.
Die Einrichtung ist unkompliziert: Kostenlosen Hugging-Face-Account anlegen, in den Claude-Einstellungen einen Custom Connector hinzufügen und die URL eintragen. Danach lassen sich Modelle wie FLUX.1 Krea oder Qwen-Image als Werkzeuge aktivieren.
FLUX.1 Krea zielt auf Realismus. Weniger Plastik-Haut, weniger übersättigte Farben, weniger typischer KI-Look. Qwen-Image hat seine Stärke bei Text in Bildern, also bei Postern, Infografiken, Schildern.
Der Workflow: Man beschreibt Claude, was man will. Claude formuliert einen optimierten Prompt, ruft das Bildmodell auf, bekommt das Ergebnis zurück. Gefällt es nicht, iteriert man weiter. Claude sieht das generierte Bild und kann Verbesserungsvorschläge machen. Das läuft alles innerhalb einer einzigen Konversation.
Bilder im Artikel-Workflow mit Cowork
Claude Cowork ist Claudes Desktop-Agent. Er läuft lokal, hat Zugriff auf einen Ordner und kann mehrstufige Aufgaben selbstständig abarbeiten. Und er kann Bilder sehen.
Das eröffnet einen interessanten Workflow: Man legt 10 bis 15 Bilder in den Arbeitsordner, gibt Cowork einen Artikel oder lässt ihn dort schreiben, und Cowork entscheidet, welches Bild an welche Stelle passt. Dateinamen für SEO umbenennen, Alt-Texte aus dem Bildinhalt generieren, hochladen, einbauen. Alles in einem Durchgang.
Bei normaler Webauflösung verkraftet das Context Window eine Handvoll Bilder ohne Probleme. Bei 20 oder mehr großen Dateien wird es eng, weil die Base64-Kodierung das Datenvolumen um rund ein Drittel aufbläht. Das ist keine Katastrophe, aber man sollte es wissen.
Standalone MCP-Server für Bildgenerierung
Neben Hugging Face gibt es eine wachsende Zahl eigenständiger MCP-Server, die verschiedene Bild-APIs anbinden. Ein Server auf GitHub nutzt Googles Gemini-Modelle, ein anderer verbindet OpenAI und Replicate über ein einziges Interface. Die meisten richten sich an Entwickler und laufen über Node.js – also eher für Claude Desktop oder Claude Code gedacht als für die Weboberfläche.
Wer die Kommandozeile nicht scheut, kann damit eine lokale Pipeline aufbauen: Prompt formulieren, Bild generieren, Ergebnis direkt in den Projekt-Ordner speichern. Das Angebot an solchen Servern wächst schnell, die Qualität schwankt allerdings noch.
Der eigene Weg über die API
Dass es diesen Weg überhaupt gibt, ist vielen nicht bewusst. Der fehlende Bildgenerator wirkt zunächst wie ein Nachteil gegenüber ChatGPT oder Gemini. Lässt er sich umgehen, fällt er kaum noch ins Gewicht. Und genau das geht. Wer einen API-Schlüssel bei einem Anbieter hat, etwa bei OpenAI, kann sich von Claude ein kleines Skript bauen lassen, das einen Prompt an die Bild-API schickt, das fertige Bild zurückbekommt und es gleich in die WordPress-Mediathek lädt oder wo immer man es braucht. Programmieren muss man dafür nicht. Man beschreibt, was das Skript leisten soll, und Claude schreibt den Code.
Genau dieses Muster nutze ich auf dieser Website schon für andere Dinge, nur dass in dem Fall Text statt Bild zurückkommt. Der Mechanismus ist derselbe. Zwei Dinge sollte man wissen. Der API-Schlüssel gehört dir allein, und anders als die kostenlosen (aber begrenzten) Hugging-Face-Credits kostet jeder Aufruf etwas, im Bereich weniger Cent pro Bild. Für gelegentliche Nutzung fällt das aber kaum ins Gewicht. Weiterer Vorteil, man hat eine der stärksten Engines (derzeit GPT 2.0) zur Verfügung.
Was das für die Praxis bedeutet
Die Kombination aus Bildverständnis und Dateizugriff macht Workflows möglich, die sonst drei oder vier verschiedene Tools erfordern würden. Claude ist hier Schaltzentrale, nicht das Grafikprogramm.
Die KI ersetzt deshalb keinen Midjourney-Account und keinen Grafiker. Als Vermittler aber, der Prompts optimiert, Ergebnisse bewertet und Bilder in bestehende Workflows einbaut, funktioniert es. Oft braucht man auch nicht mehr.