Das Karriereportal für Wissenschaft & Forschung von In Kooperation mit DIE ZEIT Forschung und Lehre

Rettet die Wissenschaft!

VON STEFAN SCHMITT UND STEFANIE SCHRAMM

Im Geschäft der Erkenntnisgewinnung läuft zu viel schief. Zum Glück gibt es Menschen, die das ändern wollen.

Rettet die Wissenschaft!© ktasimar - Fotolia.comZur Verbesserung der Forschung sollten Forschungsergebnisse besser unter die Lupe genommen werden
Ohne Antibiotika und Mikroelektronik, ohne Pflanzenzucht, Blinddarmoperationen oder Solarzellen. Ohne diese und zahllose andere Errungenschaften menschlicher Neugier sähe das Leben ganz anders aus. Wir wären hungriger, kränker, ignoranter, die meisten von uns wären vermutlich schon tot - oder nie geboren worden.

Dabei fußen die Erfolge der modernen Forschung auf simplen Prinzipien: auf systematischem Ergründen und skeptischem Hinterfragen. Irgendwann in der frühen Neuzeit hatte sich diese kritische Geisteshaltung als jene herauskristallisiert, die zu verlässlichen Aussagen über die Welt führt. Doch ausgerechnet heute, da wir die Früchte jahrzehnte-, ja jahrhundertelangen Forschens ernten, in einer Zeit, in der alle Lebensbereiche von der Wissenschaft durchdrungen zu sein scheinen, ausgerechnet jetzt wird das Vertrauen in die erfolgreiche Erkenntnismaschinerie schwer erschüttert.

Gerade hat der frisch geehrte Physik-Nobelpreisträger Peter Higgs gesagt, heute würde er an keiner Universität mehr einen Job bekommen, da von jungen Forschern erwartet werde, »einen Aufsatz nach dem anderen rauszuhauen«. Parallel zürnte der diesjährige Nobel-Laureat für Medizin, Randy Schekman, den führenden Fachzeitschriften Nature und Science. Er warf ihnen »Verzerrung« und »Tyrannei« vor, weil sie statt Relevanz »sexy Themen« und »steile Thesen« bevorzugten; damit könnten sie »Forscher dazu verleiten, zu pfuschen« - mit den beiden altehrwürdigen Institutionen griff er zwei tragende Säulen des Systems an. Und der Starpsychologe Daniel Kahneman, ebenfalls Nobelpreisträger, warnte im Frühjahr, dass die gesamte Fachrichtung der Sozialpsychologie »gegen die Wand fahren« werde, nachdem sich eine Reihe von Ergebnissen aus wichtigen Studien des Feldes nicht bestätigen ließen.

Tatsächlich häufen sich die Meldungen, die nicht in das Idealbild der Wissenschaft passen: Fachzeitschriften ziehen heute 15-mal so viele fragwürdige Artikel zurück wie noch vor zehn Jahren. Als die Biotechfirma Amgen mehr als 50 wichtige Krebsstudien wiederholte, bestätigten sich deren Resultate nur in zehn Prozent der Fälle. Das heißt, neun von zehn vermeintlich sicheren Erkenntnissen der Wissenschaft waren gar keine. Ähnlich erging es dem Pharmaunternehmen Bayer, wo sich laut einer internen Umfrage in gerade mal einem Viertel der einbezogenen 67 Projekte die jeweils relevanten Veröffentlichungen erfolgreich replizieren ließen. Verlassen kann man sich also auf viel weniger, als man meint.

Daran sind nicht nur Fälscher und Plagiatoren schuld, über die in den letzten Jahren so viel zu lesen war. Einzelne mögen böswillig betrügen, gravierender aber für die Qualität der Wissenschaft insgesamt sind Fehler im System. Die erscheinen zunächst vielleicht harmlos, wirken aber verhängnisvoll.

Denn gleichzeitig wächst die Menge der Forschungsergebnisse rasant: Weltweit arbeiten heute rund sieben Millionen Wissenschaftler. Sie versuchen, ihre Resultate in mehr als 30.000 Fachzeitschriften zu veröffentlichen. In einem einzigen Jahr erscheinen nach Zählung von Nature 1,4 Millionen Fachaufsätze - das sind Tag für Tag 3.850 Stück. Selbst in ihrem eigenen Fachgebiet können Spezialisten kaum noch die Literatur überblicken und beurteilen, was davon wirklich etwas taugt. In dieser Lage können schwarze Schafe, blinde Flecken und Schlupflöcher die gesamte Wissenschaft in Misskredit bringen. Sollten sie überhandnehmen, es wäre ein Schaden für alle, mit Folgen für jeden. Abhilfe ist dringend nötig. Junge Forscher versuchen, die Schwachstellen auszubessern: als Aufdecker, Fallensteller, Replikateure, Fehlerjäger, Negativpublizisten und Reformatoren.

Das Experiment

In Eile und steter Konkurrenz ist der Druck groß, etwas zu finden. Statt Relevanz oder Neugier leitet dann den Forscher nur die Frage: Was lässt sich veröffentlichen?

Die Daten

Fast jede Wissenschaft fußt heute auf Datenanalyse. Rasch tritt an die Stelle gezielter Auswertung die Suche nach irgendeinem Ergebnis - unabhängig von der ursprünglichen Fragestellung.

Der Fachaufsatz

Das Paper gilt als Instanz gesicherter Erkenntnis. Dabei sind viele Studien selektiv, statistisch schwach und damit fragwürdig - allzu oft fällt das den Gutachtern der Journals nicht einmal auf. Schwerpunkt: Rettet die Wissenschaft!

Die Aufdecker

Als bekanntestes Selbstreinigungsmittel der Wissenschaft gilt der Widerruf fehlerhafter Artikel. Bloß setzen es die Fachjournale am liebsten so unauffällig wie nur irgend möglich ein. Außer in ein paar Skandalfällen verschwinden Widerrufe praktisch spurlos in den Archiven, die Originalartikel dagegen werden munter weiter zitiert. »Viele Leute haben überhaupt keine Ahnung, wie viele Artikel zurückgezogen werden, selbst Wissenschaftler nicht«, sagt Adam Marcus. Deshalb hat er vor vier Jahren zusammen mit Ivan Oransky das Blog Retraction Watch gestartet. 15.000-mal am Tag wird es angeklickt, mehr als tausend Widerrufe haben sie schon öffentlich gemacht.

Die beiden Wissenschaftsjournalisten recherchieren, warum ein Artikel zurückgezogen wurde. Denn oft sind die Angaben der Zeitschriften äußert dürftig. »Der Artikel wurde vom Autor zurückgezogen«, zitiert Marcus seine Lieblingsphrase, »sehr hilfreich!«. Nicht immer erhält er auf Nachfrage erhellendere Antworten. Ein Herausgeber habe schlicht gesagt: »Das geht Sie, verdammt noch mal, nichts an.«

Für fast 30 Prozent aller Widerrufe sind Fehler der Grund, für weitere zehn Prozent nicht reproduzierbare Ergebnisse, für den Rest ist es größtenteils wissenschaftliches Fehlverhalten. Doch in vielen weiteren Artikeln dürften unentdeckte Makel stecken. Eine Ursache dafür sind mangelhafte Statistikkenntnisse. Es ist paradox: Die Bedeutung statistischer Analysen und der Signifikanz als Gütekriterium ist so groß wie nie - doch die statistischen Fähigkeiten vieler Forscher sind so mäßig wie eh und je. »Da hat sich in den vergangenen 15 Jahren nicht viel getan«, sagt Hans-Hermann Dubben vom Universitätsklinikum Hamburg-Eppendorf, der angehenden Medizinern das statistische Handwerkszeug beibringt und nebenbei Analyseschwächen in wissenschaftlichen Studien aufspürt.

Die Journale wiederum schützen mit ihrer diskreten Widerrufpolitik nicht nur den eigenen Ruf, sondern auch einen Mythos: den des wissenschaftlichen Fachaufsatzes (im Forscherjargon: »Paper«) als Instanz untrüglicher Wahrheit, als solider Baustein im endlosen Turmbau des Wissens. Beitrag für Beitrag rücken Marcus und Oransky dieses Bild zurecht: »Wir wollen das Paper entmystifizieren.«

Die Fallensteller

Der Ruf des Papers bröckelt nicht zuletzt deshalb, weil die Qualitätskontrolle der Fachzeitschriften, das »Peer-Review«, alles andere als unfehlbar ist. Bei guten Journalen begutachten die besten Experten des Fachs anonym die eingesandten Erkenntnisse, doch auch ihnen entgehen viele Fehler. Wie viele es tatsächlich sind, das muss den meisten erst noch vor Augen geführt werden. Unter jungen Wissenschaftlern hat sich ein regelrechter Trendsport etabliert, das hoaxing, benannt nach dem englischen Wort für Jux: Man bastele ein völlig unsinniges Manuskript, reiche es bei einer Zeitschrift ein und warte ab. Veröffentlicht das Journal den Artikel, ist der Spaß groß, die Zeitschrift und seine Gutachter sind blamiert.

Vorbild der Hoaxer ist der Physiker Alan Sokal, der 1996 die sozialwissenschaftliche Zeitschrift Social Text mit einem Artikel bloßstellte, in dem er die Quantengravitation als soziales Konstrukt interpretierte. Weitere Hoaxes: Drei serbische Studenten reichten ein Paper bei Metalurgia International ein, das Michael Jackson, die Satirefigur Borat und einen Pornostar zitiert. Es wurde als interessant und wissenschaftlich seriös akzeptiert. Ein gewisser Professor Rathke schickte computerfabrizierten Nonsens an Advances in Pure Mathematics. Er wurde akzeptiert. Ein Autorenteam des fiktiven Center for Research in Applied Phrenology (kurz CRAP, Englisch für Mist) reichte ein ebensolches Paper bei The Open Information Science Journal ein. Es wurde akzeptiert. Als die Sache aufflog, trat der Herausgeber zurück. Zuletzt akzeptierten im vergangenen Herbst mehr als 150 Zeitschriften ein Manuskript des Biologen John Bohannon über ein Krebsmittel. Es war erkennbar fingiert, doch offenbar hatte kein Gutachter etwas bemerkt.

Immer wieder wird das Peer-Review mit dem Verweis auf Winston Churchill verteidigt. Der britische Premierminister hatte einst die Demokratie als die »schlechteste aller Staatsformen« bezeichnet - abgesehen von all den anderen Formen, die ausprobiert worden seien. Peer-Review als am wenigsten schlechte Variante der Qualitätssicherung? Selbst gegen Unsinn mit Ansage ist es nicht gefeit: Als die Herausgeberin des renommierten British Medical Journal ihre eigenen Gutachter mit einem fehlergespickten Artikel testete, fanden diese - trotz Vorwarnung - durchschnittlich nur weniger als jeden vierten Fehler. Der Mathematiker Ulrich Berger nennt die Gutachter »Teilzeitputzmänner und -frauen«; sie sollen die Selbstreinigungskraft der Wissenschaft gewährleisten, aber bitte ohne Honorar und meist nach Feierabend - wen wundert es, wenn das Ergebnis da oft nicht streifenfrei ist?

Die Replikateure

Viele Ungereimtheiten lassen sich allerdings gar nicht am Schreibtisch aufdecken, sondern nur im Labor. Die Wiederholung von Experimenten (»Replikation«) ist die wissenschaftliche Feuerprobe. Eine solche haben Frank Renkewitz und seine Kollegin Stephanie Müller unternommen; anfangs waren sie ganz zuversichtlich. Drei Psychologen hatten getestet, wie Wörter die Aufmerksamkeit im Raum lenken. (Wenn man auf einem Monitor »Cowboyhut« statt »Stiefel« liest, wie nimmt man dann weitere Reize auf dem Bildschirm wahr?) Das Resultat war in Psychological Science veröffentlicht worden. »Interessante Untersuchung«, habe er gedacht, sagt Renkewitz, »kann schon stimmen.« Als Erstes forderte Renkewitz die Autoren auf, ihm ihre Versuchsprotokolle zu schicken.

Der Psychologe von der Universität Erfurt gehört zum »Reproducibility Project«: Mehr als hundert Studien aus drei der angesehensten Fachzeitschriften der Disziplin will die Initiative wiederholen. Der amerikanische Psychologe Brian Nosek hatte die Idee dazu gehabt, nachdem sich einige klassische Ergebnisse aus der Sozialpsychologie einfach nicht hatten replizieren lassen (ZEIT Nr. 22/13). »Fast jeder, der länger als fünf Jahre dabei ist, hat schon einmal erlebt, dass sich ein Ergebnis nicht wiederholen lässt«, sagt Renkewitz. Doch kaum jemand mache das öffentlich, weil reine Replikation kein Prestige bringe, höchstens Ärger. Die Konsequenz: »Das Vertrauen darin, dass sich die Wissenschaft selbst korrigiert, ist exzessiv ungerechtfertigt.« Im Protokoll seiner drei Kollegen stieß Renkewitz auf eine erste Ungereimtheit: Vor dem Experiment hatten sie allem Anschein nach genau das entgegengesetzte Ergebnis erwartet. »Offenbar haben sie die veröffentlichte Hypothese erst nach dem Versuch aufgestellt.« Renkewitz kommentiert trocken: »Das hat meine Zuversicht gemindert.«

Im Frühjahr 2014 wird das Reproducibility Project zum ersten Mal eine Zahl veröffentlichen, vor der sich viele fürchten - die aktuelle Replikationsquote: Welcher Anteil an den Studien konnte bislang bestätigt werden? Den Versuch der drei Psychologen hat Renkewitz schließlich Schritt für Schritt wiederholt. Und fand dabei überhaupt keinen Effekt, weder in die eine noch in die andere Richtung - Replikation fehlgeschlagen. Bei zwei anderen Studien gelang es ihm, seine persönliche Replikationsquote lautet also: zwei Drittel.

Das muss sich ändern

Die Umstände sind schuld? Falsche Anreize? Nicht nur! 9 dringende Forderungen für eine bessere Forschung:

1. Besser als Vertrauen

Forschungsergebnisse müssen viel häufiger durch Wiederholung nachgeprüft werden (»repliziert«), dafür sollten Gelder reserviert werden - und Seiten in den Fachzeitschriften.

2. Qualität vor Quantität

Die schiere Menge der Veröffentlichungen eines Forschers darf kein Maß für seine Leistung sein.

3. Misserfolge würdigen

Auch Negativ- und Nullergebnisse gehören publiziert.

4. Anonymität wahren

Whistleblower müssen besser vor Enttarnung geschützt werden.

5. Studien registrieren

Damit nachträglich nicht daran gedreht werden kann, müssen Hypothese, Vorgehen und Ziel eines Experiments schon vorher protokolliert werden.

6. Konsequent offenlegen

Alle Forschungsdaten zu einer Publikation müssen zugänglich sein.

7. Statistik leben

Auswertung muss zum zentralen Bestandteil jeder Wissenschaftlerausbildung werden.

8. Skepsis vernetzen

Die Expertise jedes Einzelnen muss genutzt werden, um Paper zu bewerten - und auch die Arbeit der Gutachter.

9. Nachmacher eindämmen

Wer klar nachklappert (»Me-too-Forschung«), obwohl die Wissenschaft schon weiter ist, sollte weder gefördert noch publiziert werden.

Die Fehlerjäger

Wie viele weitere, längst veröffentlichte Paper stecken noch voller Fehler? Für die Suche sind Instinkt und Hartnäckigkeit nötig. Das zeigt niemand besser als Clare Francis, wie die wohl bekannteste Unbekannte der Szene sich nennt. »Sie hat Hunderte E-Mails an Redakteure von lebenswissenschaftlichen Fachzeitschriften geschickt und auf Fälle von Plagiaten oder Manipulationen hingewiesen«, würdigte Nature sie Ende November und schrieb, bereits »eine Handvoll« korrigierter oder zurückgezogener Aufsätze seien auf Francis' Konto gegangen.

Vor gut einem Jahr erhielt auch der Bremer Krebsforscher Jörn Bullerdiek Post von Francis: Bei einem italienischen Kollegen stimme etwas nicht. Er solle sich das einmal anschauen! Bullerdiek beäugte Grafiken aus unterschiedlichen Papern des Fachkollegen, die sich irritierend ähnlich sahen. Mittlerweile sind zwei Artikel zurückgezogen, gegen den Hauptautor ermittelt die Staatsanwaltschaft. Solche Erfolge sind allerdings selten und die Widerstände oft enorm. »Wissenschaftler sind ja typischerweise ebenso Autoren wie Gutachter, einige zusätzlich noch Redakteure«, beschreibt Bullerdiek die Situation, »das heißt, innerhalb eines Fachs sind wir immer Spieler und Schiedsrichter zugleich.« Entsprechend frustrierend ist die Arbeit für selbst ernannte Jäger wie Clare Francis. Per E-Mail berichtet sie von Ignoranz und Abwehrreaktionen. »Ich bin einfach jemand, der sich die Mühe macht, die Daten anzuschauen«, schreibt sie. Ihre Gegenüber bedrängt sie, dasselbe zu tun. Für viele Fachjournale ist sie deswegen ein rotes Tuch. Fehlersuche verspricht nur Mühe und Händel.

Daher agieren die Jäger häufig anonym. Das lässt sich auch bei der Website PubPeer beobachten: Seit Oktober 2012 kann dort jedermann auf die Schwächen in Aufsätzen hinweisen. Während die Macher der Seite selbst im Verborgenen bleiben, zeitigen die zumeist anonym geführten Diskussionen auf PubPeer öffentliche Konsequenzen. Zum Beispiel musste die Fachzeitschrift Cell im vergangenen Frühsommer eine viel beachtete Studie des Klonforschers Shoukhrat Mitalipov zurückziehen, nachdem PubPeer-Nutzer darin Schlampereien aufgedeckt hatten. So schärfen die Fehlerjäger das Bewusstsein - bei Autoren wie Gutachtern. Jörn Bullerdiek berichtet nach seinen Erfahrungen mit Francis: »Bei Begutachtungen schaue ich inzwischen ganz anders hin.«

Die Negativpublizisten

Selbst wenn Paper zweifelsfrei stimmen, verzerren sie in der Summe die Wirklichkeit - weil viele korrekte Studienergebnisse unter den Tisch fallen. Es sind Resultate fehlgeschlagener oder ergebnisloser Experimente.

JUnQ soll das ändern, eine höchst ungewöhnliche Fachzeitschrift. Ersonnen wurde sie auf einem Workshop von Nachwuchsforschern, beheimatet ist sie an der Universität Mainz. Ihr Titel ist kokett, klingt wie junk, englisch für Müll, steht aber für Journal of Unsolved Questions - »Zeitschrift für ungelöste Fragen«. Das Titelthema der Januarausgabe von JUnQ, »Qualität in der Wissenschaft«, passt zur Mission des Teams. Der Chemiker Andreas Neidlinger beschreibt sie so: »Wir möchten Forschungsarbeiten öffentlich machen, die sonst in der Schublade verschwinden würden.« Verschwinden, weil ein Experiment nicht zum gewünschten Resultat geführt hat - Negativergebnisse haben bei Fachzeitschriften kaum Chancen. Gleichzeitig gilt für junge Forscher: publish or perish! Wer nicht veröffentlicht, kann seine Karriere vergessen. So werden überwiegend positive Befunde eingereicht, von Studien, bei denen herauskam, was der Autor erwartet hatte. Seit 1990 hat sich der Anteil von Veröffentlichungen mit Negativergebnissen halbiert. »Dass etwas nicht funktioniert, ist aber für den wissenschaftlichen Erkenntnisgewinn genauso wichtig«, findet Neidlinger.

Offenbar hat JUnQ damit einen Nerv getroffen. Im Jahr 2012 erhielt das Team den Deutschen Ideenpreis, mit der aktuellen Ausgabe geht es schon in den vierten Jahrgang. Andererseits steckt in neuen Heft nur ein einziger Forschungsartikel. »Über ein gescheitertes Projekt zu schreiben ist nicht weniger Arbeit als ein gewöhnlicher Artikel«, erklärt Neidlinger. Häufig erleben die JUnQ-Macher, dass Forscher zwar Manuskripte einreichen, bei den Nachfragen der Gutachter dann aber die Lust verlieren. Auch das ungewöhnliche Journal spürt die gewohnten Denkmuster: Was die Karriere nicht voranbringt, verdient auch keinen Aufwand.

Die Reformatoren

Dass sich etwas ändern muss, haben inzwischen auch Institutionen erkannt: Große Fachverlage machen mit einem Projekt (»Crossmark«) Korrekturen und Widerrufe von Artikeln auffindbar. Die Deutsche Forschungsgemeinschaft betont als Kriterium zur Mittelvergabe die Qualität von Veröffentlichungen, nicht mehr nur ihre Anzahl. Mehrere große Replikationsprojekte sind gestartet. Die wunden Punkte der Wissenschaft, das zeigen die Beispiele von den Aufdeckern über die Fallensteller bis zu den Fehlerjägern, können aber nicht geheilt werden, solange nicht der wissenschaftliche Prozess insgesamt reformiert wird.

Wie will man künftigen Forschern garantieren, dass sie auf echte Befunde aufbauen? »Ich befürworte das heutige System des Peer-Reviews zwar, aber ich denke, dass es ergänzt werden könnte«, formuliert Diana Deca vorsichtig. Als Neurowissenschaftlerin promoviert sie an der TU München, als studierte Wissenschaftsphilosophin denkt sie über genau diese Ergänzung für das Peer-Review nach. Gemeinsam mit einem Kollegen sammelt sie seit vier Jahren Ideen ein, quer durch die scientific community. »Wir haben ziemlich viele Übereinstimmungen vorgefunden«, sagt Deca. Die Schnittmenge der Visionen: Gutachter sollen nicht länger anonym sein, ihre Arbeit soll öffentlich bewertet werden. Vor allem soll die Begutachtung eines Aufsatzes auch über dessen Publikation hinaus andauern, sodass weitere Experten und jeder Leser die Güte beurteilen können. Alle Reviews wären ebenfalls öffentlich - und bewertbar. Open evaluation heißt das. Mehr »Tempo, Kontrolle und Transparenz« verspricht Deca sich davon. »Außerdem kommen mehr Menschen und neue Bewertungsformen ins Spiel.«

Dass solche Ideen funktionieren können, zeigt das Beispiel arxiv.org. Auf diesen Server laden vor allem Physiker, Mathematiker und Informatiker ihre neuesten Manuskripte (»preprint«) hoch, derzeit rund 8.000 Aufsätze pro Monat. Informelles Gegenlesen führt dazu, dass manche Aufsätze erst gar nicht zu einer Fachzeitschrift geschickt werden, viele andere werden dank Hinweisen der arxiv-Nutzer später in einer verbesserten Fassung abgedruckt. Und im Jahr 2006 wurde erstmals für einen ausschließlich auf arxiv veröffentlichten Aufsatz die Fields-Medaille verliehen - für Mathematiker das Äquivalent des Nobelpreises. Gerade wird der Nutzerkreis auf Biologen ausgeweitet. Einzelne Komponenten für ein künftiges Modell existieren also bereits.

Fazit

An den unterschiedlichsten Stellen suchen Forscher schon nach Lösungen, sie investieren Mühe und (Frei-)Zeit, probieren neue Ideen aus. Jetzt muss aus den einzelnen Initiativen ein ernsthafter Umbau werden. Klar ist, die Qualitätskontrolle gehört auf viel mehr Schultern verteilt als bisher, der gesamte Prozess muss transparenter sein. Allein die schiere Masse an Forschern und Ergebnissen macht das nötig - und die digitale Vernetzung macht es möglich. Damit der Umbau funktioniert, müssen die Anreize und der Rahmen stimmen: Eine von mehreren zentralen Forderungen (siehe Kasten "Das muss sich ändern") lautet, dass Forschungsergebnisse wieder häufiger durch Wiederholung nachgeprüft werden sollen. Damit das kein frommer Wunsch bleibt, müssen bei der Planung künftiger Forschungsprogramme von vornherein eigene Budgets für die Replikation vorgesehen werden. Es geht um nicht weniger als eine neue Forschungsarchitektur.

Zuständig für deren Entwurf sind nicht in erster Linie Forschungspolitiker, sondern die Forscher selbst (siehe Interview "Die Folgekosten können hoch sein"). Nicht nur weil sie das jetzige System am besten kennen. Sondern weil es ihr Job ist, Probleme zu lösen und Neues zu entdecken. So gesehen, waren die Chancen, einen neuen Rahmen für die menschliche Neugier zu erfinden, nie besser als heute: Sieben Millionen Wissenschaftlern sollte da doch etwas einfallen.

.Aus DIE ZEIT :: 27.12.2013

Ausgewählte Stellenangebote