Zurückgezogene Artikel gehören zu den deutlichsten und sichtbarsten Warnsignalen zum Schutz der Forschungsintegrität in der wissenschaftlichen Literatur. Eine neue Studie, die am 19. November 2025 in Retraction Watch veröffentlicht wurde, zeigt jedoch, dass die sich rasant verbreitenden KI-Chatbots besonders große Schwierigkeiten haben, diese kritischen Warnsignale zu erkennen. Die Forscher warnen davor, dass Wissenschaftler, insbesondere diejenigen, die ChatGPT und ähnliche Tools verwenden, schwerwiegende Fehler riskieren, wenn sie die Antworten dieser Modelle als „automatischen Wahrheitsfilter“ nutzen (https://retractionwatch.com/2025/11/19/ai-unreliable-identifying-retracted-research-papers-study/).
Konradin Metze und sein Team an der Staatlichen Universität Campinas, die die Studie durchführten, entwarfen ein relativ einfaches Experiment. Sie präsentierten 21 verschiedenen KIs eine Liste von Publikationen von Joachim Boldt, der für seinen großen wissenschaftlichen Betrugsskandal in der Anästhesiologie bekannt ist. Die Liste enthielt die meistzitierten zurückgezogenen Artikel von Boldt, die meistzitierten, nicht zurückgezogenen Publikationen von Boldt sowie Artikel anderer Autoren mit dem Nachnamen Boldt. Für jede der 132 Referenzen wurde den Bots eine einzige Frage gestellt: Wurde dieser Artikel zurückgezogen oder nicht?
Die Ergebnisse waren verblüffend. Die meisten Chatbots erkannten weniger als die Hälfte der zurückgezogenen Artikel korrekt. Sie übersahen diese nicht nur, sondern kennzeichneten auch einen erheblichen Teil der nicht zurückgezogenen Artikel fälschlicherweise als zurückgezogen. Dies stellt eine gravierende Schwäche hinsichtlich Sensitivität und Spezifität dar: Die KI vermittelt falsche Sicherheit und sät unnötige Zweifel an etablierten Artikeln.
Als das Forschungsteam drei Monate später einen Teil des Experiments wiederholte, stieß es auf ein noch auffälligeres Muster. In der ersten Runde verwendeten die Bots überwiegend eindeutige Aussagen, in der zweiten Runde hingegen vage und ausweichende Formulierungen wie „möglicherweise zurückgezogen“ oder „erfordert weitere Überprüfung“. Die Forscher interpretieren diese Verschiebung als ein Schwanken der Modelle zwischen „falscher Gewissheit“ und „dem Versuch, sich mit vagen Aussagen zu retten“.
Der Bericht von Retraction Watch zitiert außerdem eine weitere aktuelle Studie von Mike Thelwall von der Universität Sheffield. Thelwall ließ ChatGPT 217 zurückgezogene oder stark in Frage gestellte Artikel 6.510 Mal bewerten. In keiner dieser Tausenden von Antworten deutete ChatGPT darauf hin, dass der Artikel zurückgezogen wurde, Fragen dazu aufwarf oder wissenschaftliche Probleme enthielt. Im Gegenteil, es lobte sogar einige zurückgezogene Artikel als „hochwertige Arbeit“. Dies zeigt, dass KI nicht nur Informationen über Rücknahmen übersieht, sondern auch fehlerhafte oder falsche wissenschaftliche Ergebnisse verherrlichen und reproduzieren kann (https://sheffield.ac.uk/ijc/news/new-research-suggests-chatgpt-ignores-article-retractions-and-errors-when-used-inform-literature?utm_source=chatgpt.com).
Das Problem beschränkt sich nicht nur auf die Erkennung. Eine weitere Studie, veröffentlicht im Journal of Advanced Research, zeigte, dass Chatbots zurückgezogene Artikel als Quellen in ihren Antworten verwenden. Das bedeutet, dass KI Informationen, die in der wissenschaftlichen Literatur als überholt gelten, erneut verbreiten kann. Da immer mehr Wissenschaftler Tools wie ChatGPT nutzen, um schnell zusammenzufassen, Forschungsideen zu entwickeln oder sich in die Literatur einzuarbeiten, steigt das Risiko der erneuten Verbreitung zurückgezogener Informationen erheblich.
Der Wissenschaftssoziologe Serge Horbach bezeichnet diese Entwicklungen als „deutliche Warnung“: LLM-Modelle eignen sich nicht, um zurückgezogene Artikel herauszufiltern. Die Trainingsdaten von KI-Modellen stammen aus einem System, das historisch gesehen hinterherhinkt und in dem Informationen über die Rücknahme von Artikeln fragmentiert veröffentlicht werden. Informationen über die Rücknahme eines Artikels sind möglicherweise nur auf der Zeitschriftenseite, nur in PubMed oder nur in der Retraction Watch-Datenbank sichtbar. Diese fragmentierte Struktur sicher und präzise zu durchsuchen, übersteigt die technischen Möglichkeiten heutiger Chatbots bei Weitem.
Für Academic Solidarity sind diese Erkenntnisse besonders relevant für Wissenschaftler im Exil oder in prekären Arbeitsverhältnissen. In Situationen mit eingeschränktem Zugang zu Forschungsinfrastruktur bieten Tools wie ChatGPT zwar hohe Geschwindigkeit und Komfort, bergen aber gleichzeitig das Risiko der unbemerkten Reproduktion von Studien, die auf zurückgezogenen oder fehlerhaften Informationen basieren. Dieses Risiko ist für Forschende in den Bereichen Politik, Recht oder Menschenrechte noch gravierender; Fehlinformationen können nicht nur einen wissenschaftlichen Fehler darstellen, sondern auch politischer Manipulation Tür und Tor öffnen.
Diese Situation bedeutet nicht zwangsläufig, dass KI vollständig aus Forschungsprozessen ausgeschlossen werden sollte; sie verdeutlicht jedoch eine entscheidende Einschränkung: ChatGPT und ähnliche Modelle sind keine zuverlässigen Filter zur Erkennung zurückgezogener Literatur.