
Jeden Monat landen rund 24.000 neue Aufsätze auf arXiv, dem größten Preprint-Server der Wissenschaft. Kein Gutachter hat sie vorher gelesen. Kein Verlag hat sie geprüft. Trotzdem tauchen sie in Schlagzeilen auf, in LinkedIn-Posts, in KI-Antworten, und am Ende in deiner Hausarbeit.
Auch hier auf dieser Seite, so ehrlich sollte man sein. »Eine Studie zeigt«, heißt es dann. Nur: Was eine Studie zeigt und was sie beweist, sind verschiedene Dinge.
Inhaltsverzeichnis
Es geht nicht darum, Wissenschaft schlechtzureden. Es geht darum, sie einordnen zu können. Die meisten tun das nicht. Eine Studie steht in der Zeitung, also stimmt sie. So läuft der Reflex, und genau der führt in die Irre. Wer Studien kritisch lesen will, braucht kein Statistikstudium, sondern ein paar einfache Fragen und etwas Misstrauen gegenüber dem, was zu glatt klingt.
Studien im Internet sind oft nur Zwischenstände
Der Reflex ist verständlich. Eine Studie klingt nach Wahrheit, nach Labor, nach weißen Kitteln und harten Zahlen. In Wirklichkeit ist eine Studie erst einmal nur ein Text, in dem jemand beschreibt, was er gemessen zu haben glaubt. Ob die Messung taugt, ob die Statistik hält, ob das Ergebnis kein Zufall war, steht damit noch nicht fest. Es ist ein Vorschlag an die Fachwelt, kein Urteil.
Besonders deutlich wird das bei Preprints. Das sind Aufsätze, die Forscher direkt online stellen, bevor ein Fachjournal sie begutachtet hat. arXiv ist der bekannteste dieser Server, daneben gibt es bioRxiv für Biologie, medRxiv für Medizin, SSRN für „Sozialwissenschaften“. Der dahinterstehende Sinn ist gut. Forschung soll schneller zirkulieren, nicht erst ein Jahr in der Pipeline eines geldgierigen Verlags hängen. Der Preis dafür ist, dass auf einem Preprint-Server eben auch steht, was niemand geprüft hat.
Ein Preprint ist eine wissenschaftliche Arbeit, die von den Autoren selbst online veröffentlicht wird, bevor sie ein Peer-Review-Verfahren durchlaufen hat. Preprints sind nicht begutachtet und können Fehler, vorläufige Ergebnisse oder unbestätigte Behauptungen enthalten.
Geldgierig ist dabei nicht zu hart formuliert. Der Marktführer Elsevier fuhr 2024 in seiner Wissenschaftssparte eine operative Marge von rund 38 Prozent ein, ein Niveau, das sonst eher mit Apple oder Google verglichen wird als mit einem Verlag. Das Geschäftsmodell ist im Kern eine dreifache Rechnung zulasten der Öffentlichkeit. Der Staat finanziert die Forschung. Die Wissenschaftler schreiben die Aufsätze und begutachten die der Kollegen unentgeltlich. Und am Ende kaufen dieselben Universitäten das Ergebnis teuer wieder ein, oft hinter einer Bezahlschranke, die ausgerechnet die Steuerzahler aussperrt, die es bezahlt haben. Dass Forscher die Preprint-Server lieben, hat also auch damit zu tun, dass sie diesen Kreislauf umgehen.
Bei arXiv prüfen zwar ehrenamtliche Moderatoren, ob ein eingereichter Text überhaupt nach einer wissenschaftlichen Arbeit aussieht. Das ist aber keine inhaltliche Begutachtung, sondern eine Plausibilitätskontrolle. Ein Moderator verbringt damit teils nur Sekunden pro Einreichung. Seit Anfang 2025 stieg die Zahl maschinell erzeugter Texte so stark, dass arXiv reagieren musste. Im Oktober 2025 führte der Server für Übersichtsarbeiten und Positionspapiere in der Informatik eine Pflicht zur vorherigen Begutachtung ein. Der Grund war ein Schwall KI-generierter Aufsätze, die Moderatoren als kaum mehr als kommentierte Literaturlisten beschrieben.
Was ist arXiv eigentlich
Woher. arXiv entstand 1991 am Los Alamos National Laboratory, gegründet vom Physiker Paul Ginsparg. Heute betreibt die Cornell University den Server. Gesprochen wird der Name »archive«, das X steht für den griechischen Buchstaben Chi.
Weshalb. Physiker wollten ihre Arbeiten teilen, ohne monatelang auf den Druck in einem Journal zu warten. Statt Manuskripte per Post zu verschicken, luden sie sie auf einen zentralen Server. Aus dem Verteiler wurde das größte Preprint-Archiv der Welt.
Warum es zählt. arXiv deckt Physik, Mathematik, Informatik, Statistik und weitere Felder ab. Wer über neue KI-Modelle liest, stößt fast zwangsläufig darauf, denn die meisten Forschungsarbeiten zu KI erscheinen zuerst hier. Mit allem, was das bedeutet, ungeprüft und vorläufig.
Ein Preprint ist also kein Siegel. Es handelt sich um einen Rohzustand.
Was Peer Review leistet, und was nicht
Die nächste Stufe heißt Peer Review. Bevor ein seriöses Fachjournal eine Arbeit druckt, schicken die Herausgeber sie an unabhängige Fachleute aus demselben Gebiet. Die lesen, kritisieren, fordern Nachbesserungen, manchmal lehnen sie ab. Erst wenn diese Gutachter zufrieden sind, erscheint der Aufsatz. Das ist der Goldstandard der Wissenschaft, und er ist ein Fortschritt gegenüber dem ungeprüften Preprint.
Peer Review ist die Begutachtung einer wissenschaftlichen Arbeit durch unabhängige Fachleute desselben Gebiets, bevor sie in einem Journal erscheint. Das Verfahren filtert grobe Fehler, garantiert aber weder, dass die Ergebnisse korrekt noch dass sie reproduzierbar sind.
Nur sollte man sich davon nicht zu viel versprechen. Gutachter sehen die Daten oft nicht, sie sehen den Text über die Daten. Sie prüfen, ob die Arbeit methodisch sauber wirkt, nicht ob im Labor wirklich passiert ist, was behauptet wird. Bewusster Betrug rutscht durch, schlampige Statistik ebenfalls. Peer Review filtert das Gröbste heraus. Es macht aus einer Studie keine Wahrheit, sondern eine besser geprüfte Behauptung.
Preprint und begutachtete Studie im Vergleich
| Preprint (z.B. arXiv) | Begutachtete Studie | |
|---|---|---|
| Prüfung vorab | Nur formale Plausibilitätskontrolle | Fachliche Begutachtung durch Kollegen |
| Tempo | Sofort online | Wochen bis Monate Verzögerung |
| Fehlerrisiko | Hoch, nichts ist bestätigt | Geringer, aber nicht null |
| Status | Vorschlag, Zwischenstand | Akzeptierte Behauptung der Fachwelt |
| Reproduzierbarkeit | Offen | Ebenfalls offen, wird selten getestet |
Die letzte Zeile ist die unbequeme. Auch eine begutachtete Studie sagt nichts darüber aus, ob das Ergebnis beim nächsten Versuch noch einmal herauskommt.
Die Replikationskrise, oder warum ein einzelnes Ergebnis wenig wert ist
2015 versuchte ein Forschungsverbund, 100 veröffentlichte psychologische Studien zu wiederholen. Alle stammten aus angesehenen, begutachteten Journalen. Das Ergebnis der Open Science Collaboration war ernüchternd. Nur rund 36 Prozent ließen sich erfolgreich reproduzieren. Was als erfolgreiche Reproduktion zählt, ist zwar methodisch umstritten, und je nach Fachgebiet schwanken die Zahlen. Doch dass über die Hälfte der Befunde, die in Lehrbüchern und Schlagzeilen gelandet waren, der Wiederholung nicht standhielt, ließ sich nicht wegdiskutieren. In der Sozialpsychologie war die Quote noch niedriger.
Das nennt man Replikationskrise, und sie betrifft nicht nur die Psychologie. In der präklinischen Krebsforschung lag die Reproduktionsrate ähnlich niedrig. Die Gründe sind im Kern strukturell. Journale drucken lieber überraschende als langweilige Ergebnisse, also haben Forscher einen Anreiz, ihre Daten so lange zu drehen, bis etwas Druckbares herauskommt. Wer ein Nullergebnis findet, also schlicht keinen Effekt, veröffentlicht es oft gar nicht erst.
Pikant ist ein Nebenbefund. Eine spätere Analyse fand, dass gerade die nicht reproduzierbaren Studien häufiger zitiert werden als die soliden. Das Überraschende verbreitet sich besser, ob es stimmt oder nicht. Ein Mechanismus, der dem ähnelt, was online mit jeder zugespitzten Schlagzeile passiert.
Das merkt man auch beim Suchen. Zu fast jedem strittigen Thema findet sich eine Studie und kurz darauf eine zweite, die das Gegenteil nahelegt. Kaffee ist gesund, Kaffee schadet. Ki macht schlau, KI macht doof. Wer nur lange genug sucht, findet einen Beleg für fast jede Position. Das ist kein Versagen der Wissenschaft, sondern ihr Normalzustand, solange ein Feld noch in Bewegung ist.
Die Lehre daraus ist unbequem, aber klar. Ein einzelnes Ergebnis, egal wie gut begutachtet, ist ein Datenpunkt, keine Tatsache. Vertrauenswürdig wird ein Befund erst, wenn ihn mehrere unabhängige Gruppen bestätigen.
Sieben Fragen, mit denen du eine Studie einordnest
Du musst keine Statistik studiert haben, um eine Studie halbwegs einzuordnen. Ein paar Fragen reichen, um die gröbsten Fehlschlüsse zu vermeiden.
Sieben Prüffragen für jede Studie
Preprint oder begutachtet. Steht der Text auf einem Preprint-Server wie arXiv oder in einem Fachjournal? Im ersten Fall ist nichts geprüft.
Wer hat bezahlt. Eine Studie über Zucker, finanziert von einem Limonadenkonzern, verdient mehr Skepsis. Geldgeber stehen meist am Ende des Aufsatzes.
Wie viele Teilnehmer. Zwölf Probanden sind kein Beleg, sie sind ein erster Hinweis. Kleine Stichproben liefern oft Zufallstreffer.
Gibt es eine Kontrollgruppe. Ohne Vergleichsgruppe lässt sich kaum sagen, ob ein Effekt auf der Maßnahme beruht oder auf dem Zufall.
Korrelation oder Ursache. Dass zwei Dinge zusammen auftreten, heißt nicht, dass das eine das andere verursacht. Der häufigste Denkfehler überhaupt.
Wurde es wiederholt. Ein einzelnes Ergebnis ist schwach. Mehrere unabhängige Bestätigungen sind stark.
Passt die Schlagzeile zur Studie. Oft behauptet die Berichterstattung mehr, als die Arbeit selbst hergibt. Im Zweifel die Zusammenfassung im Original lesen.
Die wichtigste Frage steckt im letzten Punkt. Zwischen dem, was eine Studie tatsächlich gemessen hat, und dem, was eine Überschrift daraus macht, klafft oft eine Lücke. Eine Maus, der ein Stoff im Labor half, wird in der Schlagzeile schnell zum Heilmittel für Menschen. Im Aufsatz selbst steht das fast nie.
Warum KI das Problem verschärft
Frag ein Sprachmodell nach einer Quelle, und es liefert dir oft eine Studie mit Titel, Autoren und Jahreszahl. Das wirkt belastbar. Nur halluzinieren diese Modelle gelegentlich ganze Aufsätze, die es nie gegeben hat, oder schreiben einer realen Studie Ergebnisse zu, die nicht drinstehen. Wer das ungeprüft übernimmt, zitiert womöglich eine Quelle, die nicht existiert.
Dazu kommt die andere Richtung. KI macht es trivial, selbst Pseudo-Studien zu erzeugen, die nach Wissenschaft aussehen. Genau das hat arXiv 2025 zu schärferen Regeln gezwungen. Die Schwelle, etwas Wissenschaftlich-Wirkendes zu produzieren, ist gefallen. Die Schwelle, es zu prüfen, ist gleich geblieben. Diese Lücke füllt sich gerade mit Material, das niemand mehr durchsieht.
Der glatte, sichere Ton einer KI-Antwort tut sein Übriges. Er senkt die Hemmschwelle, etwas zu hinterfragen, genau wie ein zu glatt formulierter Text generell seltener geprüft wird. Dasselbe Muster, das die Studienlage trübt, trübt auch den Umgang mit ihr.
Das heißt nicht, dass man Studien misstrauen muss wie einem Politiker. Wissenschaft bleibt das beste Verfahren, das wir haben, um die Welt zu verstehen. Nur funktioniert sie als Prozess, nicht als Einzelergebnis. Eine Studie ist eine Stimme in einem langen Gespräch, kein Schlusswort. Wer das verinnerlicht, liest die nächste »Eine Studie zeigt«-Schlagzeile mit dem nötigen halben Lächeln. Und schaut nach, was wirklich drinsteht. (lk)