KI unterwegs und im Alltag – zeigen statt beschreiben

KI im Alltag beginnt nicht am Schreibtisch, sondern unterwegs. Fahrkartenautomat, fremde Stadt, fremder Verkehrsverbund. Vier Zonen, drei Tarifoptionen, eine Anzeige, die aussieht wie eine Steuererklärung. Man steht davor und hat zwei Möglichkeiten: jemanden fragen, der genauso ratlos aussieht. Oder ein Foto machen.

Die meisten Menschen nutzen KI für Text. Sie tippen Fragen ein oder nutzen die Sprachfunktion und bekommen Antworten zurück. Dabei ist die Kamera auf dem Handy das mächtigere Interface, weil die physische Welt voller Dinge ist, die man schlecht in Worte fassen kann, aber sofort versteht, wenn man sie sieht.

Zeigen statt beschreiben. Das ist der Grundgedanke. Und er funktioniert in erstaunlich vielen Situationen.

Fotografieren statt beschreiben

Stell dir vor, du stehst vor einer Waschmaschine mit Symbolen, die ein koreanischer Designstudent im dritten Semester entworfen haben muss. Kein Mensch versteht, was das Schneeflocken-Dreieck-Kreis-Ding bedeutet. Du kannst jetzt zwanzig Minuten die Bedienungsanleitung suchen, die ohnehin im Altpapier liegt. Oder du machst ein Foto, schickst es an ChatGPT oder Claude und schreibst dazu: »Welches Programm für Baumwolle 40 Grad?«

Das Prinzip funktioniert bei allem, wo man etwas vor sich hat, das man nicht einordnen kann. Der Thermostat, der sich nicht erklären will. Der Bescheid von der Behörde, der in Juristendeutsch verfasst ist. Die Fernbedienung mit 47 Tasten, von denen man drei braucht. Der Sicherungskasten, bei dem unklar ist, welche Sicherung zum Herd gehört.

Foto machen, Frage dazu, Antwort bekommen. Das dauert Sekunden.

Wie funktioniert KI im Alltag unterwegs?

Allie Miller, ehemalige KI-Chefin bei Amazon, beschreibt in einem Thread auf X, wie sie mit Live-Video durch einen koreanischen Supermarkt ging, um den richtigen Snack zu finden. In einer Apotheke in Australien fotografierte sie Regale, um das lokale Äquivalent eines Medikaments zu identifizieren. Statuen fotografiert sie, um sich deren Geschichte dramatisch vorlesen zu lassen.

Das klingt vielleicht nach Spielerei. Ist es nicht. Es ist das Ende von »Ich weiß nicht, was das ist, also lasse ich es«.

Speisekarte in fremder Schrift, Foto, fertig. Medikamentenpackung im Ausland: »Was ist das deutsche Äquivalent?« Fleck auf dem Koffer: »Wie bekomme ich das raus?« Pflanze im Baumarkt: »Überlebt die bei Nordwest-Fenster, dritte Etage, wenig direkte Sonne?« Parkscheinautomat in einer Stadt, deren Tarifsystem offenbar von jemandem entworfen wurde, der Menschen hasst.

Die KI sieht, was du siehst. Und sie hat die Geduld, es dir zu erklären.

Dinge erkennen, die man selbst nicht benennen kann

Im Kern geht es um eine einfache Erkenntnis: Nicht alles, was man vor sich hat, lässt sich in eine Suchmaschine eintippen. Wie beschreibst du ein Insekt, das du noch nie gesehen hast? Wie googelst du eine Porzellanmarke auf der Unterseite einer Tasse vom Flohmarkt? Was tippst du ein, wenn du im Antiquariat ein Buch in der Hand hast, von dem du nicht weißt, ob es fünf Euro wert ist oder fünfhundert?

Foto reicht. Die KI erkennt Pflanzen, Vögel, Pilze, Insekten, Architekturstile, Automodelle, Schriftarten, Porzellanstempel, historische Uniformen und ziemlich viel dazwischen. Nicht immer perfekt, aber meistens gut genug, um weiterzukommen.

Ein Oldtimer am Straßenrand, und du willst Baujahr, Modell, Geschichte wissen. Eine Statue im Park, wer ist das, was hat die Person getan. Ein Graffiti an einer Hauswand, welcher Stil, vielleicht sogar welcher Künstler. Ein Gebäude, bei dem du dich fragst, ob das Jugendstil ist oder Art déco. Straßenschilder, Wegweiser, Hinweistafeln, alles, was du siehst, aber nicht einordnen kannst.

Früher brauchte man dafür einen Experten oder ein Fachbuch. Heute braucht man eine Handykamera und eine halbe Minute.

Puzzle, Modellbau, Reparaturen

Richtig interessant wird es bei Hobbys und Werkstatt. Ein Puzzleteil fotografieren und fragen, wohin es gehört, das klappt erstaunlich oft, wenn man das Motiv kennt. Ein Bauteil im Modellbau, dessen Bezeichnung man nicht findet: Foto, Frage, Antwort. Ein Ersatzteil, das keine Beschriftung mehr hat, und die KI erkennt die Form und schlägt vor, wonach man suchen muss.

Fehlermeldung am Maschinendisplay? Statt die kryptische Nummer abzutippen, einfach abfotografieren. Die Anleitung der Bohrmaschine, die man nicht findet: Typenschild fotografieren und nach dem PDF fragen. Das Etikett auf dem Farbeimer, der seit drei Jahren im Keller steht: »Kann ich das noch verwenden?«

Die KI ist kein Handwerker. Aber sie ist ein ziemlich guter erster Ansprechpartner, wenn man nicht weiß, wo man anfangen soll.

In der Uni und im Beruf

Tafelanschrieb in der Vorlesung, abfotografieren und erklären lassen. Die Formel, die der Professor in drei Sekunden hingekritzelt hat und die man nicht entziffern kann, wird plötzlich lesbar und verständlich. Schritt für Schritt, in eigenem Tempo, ohne sich zu schämen, dass man zum dritten Mal fragt.

Diagramme aus Fachbüchern, die man nicht interpretieren kann. Laborbeschriftungen, bei denen man nicht sicher ist, was in der Flasche ist. Historische Quellen unter Glas im Museum, die sich transkribieren, übersetzen und einordnen lassen. Alles aus einem Foto.

Im Beruf dasselbe: Schaltpläne, Organigramme, Prozessdiagramme, die jemand auf ein Whiteboard gekritzelt hat. Visitenkarten in fremder Schrift. Beschriftungen auf Bauteilen, die in einer Sprache sind, die man nicht spricht. Der Kollege, der seine Notizen in einer Handschrift verfasst, die an ärztliche Rezepte erinnert.

Warum das mehr ist als ein Trick

Der springende Punkt ist nicht Effizienz. Es ist kognitive Entlastung. Jedes Mal, wenn du vor etwas stehst, das du nicht verstehst, kostet das mentale Energie. Manchmal so viel, dass man es einfach lässt. Die Waschmaschine läuft auf dem falschen Programm, weil man keine Lust hat, die Symbole zu entschlüsseln. Die Pflanze geht ein, weil man nicht nachgeschaut hat. Der Bescheid wird ignoriert, weil er unverständlich ist.

Die Kamera senkt diese Schwelle auf fast null. Du musst nichts formulieren, nichts recherchieren, nichts nachschlagen. Du zeigst es. Die KI übernimmt den Rest.

Allie Miller macht eine Beobachtung, die es trifft: Viele haben ihre digitale Inbox längst automatisiert. Aber bei Dingen aus der echten Welt herrscht immer noch Handarbeit. Die Kamera schließt genau diese Lücke, zwischen dem, was man sieht, und dem, was man weiß.

Was die Kamera nicht sehen kann

Ein paar Einschränkungen gibt es. Die KI kann ein Foto falsch interpretieren, wenn der Winkel ungünstig ist oder der Kontext fehlt. Sie verwechselt gelegentlich ähnlich aussehende Pflanzen, Insekten oder Bauteile. Bei medizinischen Fragen (Hautveränderungen, Symptome) liefert sie bestenfalls einen Hinweis, niemals eine Diagnose. Und bei handgeschriebenen Texten hängt die Qualität stark von der Handschrift ab.

Die Regel ist einfach: Nutze die KI als ersten Schritt, nicht als letztes Wort. Für die Pflanze im Baumarkt reicht das. Für den Pilz im Wald eher nicht.

Was bleibt, ist ein Werkzeug, das die meisten noch nicht auf dem Schirm haben. Nicht weil es kompliziert wäre, sondern weil die Gewohnheit fehlt. Man steht vor etwas, das man nicht kennt, und greift zum Handy. Nicht um zu googeln, sondern um zu zeigen. Ein kleiner Unterschied im Verhalten und ein großer im Ergebnis.