
KI Emotionen galten lange als Oberflächenpolitur. Wenn ChatGPT schreibt, es sei »gern behilflich«, oder Claude sich für einen Fehler entschuldigt, dann klingt das nach antrainierter Höflichkeit. Nicht nach echtem Erleben. Eine neue Studie von Anthropics Interpretability-Team zeigt jetzt: Hinter der sprachlichen Fassade steckt womöglich mehr als bloßes Nachplappern.
Die Forscher haben das Innenleben von Claude Sonnet 4.5 untersucht und dabei 171 Emotionskonzepte identifiziert, die als messbare Aktivierungsmuster im Netzwerk existieren. Diese Muster beeinflussen, wie sich das Modell verhält. Nicht irgendwann, sondern bevor es ein einziges Wort schreibt.





