"Reproduzierbare Forschung" als reproduzierbare Analyse
Reproduzierbare Forschung ist ein Begriff, der in einigen Forschungsbereichen speziell für die Durchführung solcher Analysen verwendet wird
- Code transformiert Rohdaten und Metadaten in verarbeitete Daten,
- Code führt Analysen für die Daten aus und
- Code integriert Analysen in einen Bericht.
Wenn solche Daten und Codes gemeinsam genutzt werden, können andere Forscher:
- Analysen durchführen, die nicht von den ursprünglichen Forschern gemeldet wurden
- Überprüfen Sie die Richtigkeit der von den ursprünglichen Forschern durchgeführten Analysen
Diese Verwendung kann in Diskussionen über Technologien wie Sweave gesehen werden . ZB schreibt Friedrich Leisch im Zusammenhang mit Sweave, dass "der Bericht automatisch aktualisiert werden kann, wenn sich Daten oder Analysen ändern, was eine wirklich reproduzierbare Forschung ermöglicht." Aus der CRAN-Task-Ansicht zur reproduzierbaren Forschung geht auch hervor , dass "das Ziel der reproduzierbaren Forschung darin besteht, spezifische Anweisungen an Datenanalysen und experimentelle Daten zu knüpfen, damit die Wissenschaft neu erstellt, besser verstanden und verifiziert werden kann".
Breitere Verwendung des Begriffs "Reproduzierbarkeit"
Reproduzierbarkeit ist ein grundlegendes Ziel der Wissenschaft. Es ist nicht neu Die Forschungsberichte enthalten Abschnitte mit Methoden und Ergebnissen, in denen dargelegt werden soll, wie die Daten generiert, verarbeitet und analysiert wurden. Eine allgemeine Regel ist, dass die bereitgestellten Details ausreichen sollten, um es einem entsprechend kompetenten Forscher zu ermöglichen, die bereitgestellten Informationen zu verwenden und die Studie zu replizieren.
Die Reproduzierbarkeit hängt auch eng mit den Konzepten der Reproduzierbarkeit und Verallgemeinerung zusammen.
Daher ist der Begriff "reproduzierbare Forschung", wie er wörtlich für Technologien wie Sweave verwendet wird, eine falsche Bezeichnung, da er eine Relevanz nahelegt, die breiter ist als sie abdeckt. Wenn Forscher, die solche Technologien nicht verwendet haben, Technologien wie Sweave vorstellen, wundern sich diese Forscher oft, wenn ich den Prozess als "reproduzierbare Forschung" bezeichne.
Ein besserer Begriff als "reproduzierbare Forschung"
Da "reproduzierbare Forschung", wie sie in Sweave-ähnlichen Kontexten verwendet wird, nur einen Aspekt reproduzierbarer Forschung betrifft, sollte möglicherweise ein alternativer Begriff verwendet werden. Mögliche Alternativen sind:
- Reproduzierbare Analyse:
- Reproduzierbare Datenanalyse
- Reproduzierbare statistische Auswertung
- Reproduzierbare Berichterstattung
Alle oben genannten Begriffe spiegeln genauer wider, was Sweave-ähnliche Analysen beinhalten. Die reproduzierbare Analyse ist kurz und bündig. Das Hinzufügen von "Daten" oder "Statistik" verdeutlicht die Dinge weiter, führt aber auch dazu, dass der Begriff sowohl länger als auch enger wird. Darüber hinaus hat "statistisch" eine enge und eine breite Bedeutung, und innerhalb der engen Bedeutung ist ein Großteil der Datenverarbeitung nicht statistisch. Somit hat die Breite, die der Begriff "reproduzierbare Analyse" impliziert, seine Vorteile .
Es geht nicht nur um Reproduzierbarkeit
Das andere zusätzliche Problem mit dem Begriff "reproduzierbare Forschung" ist das Ziel, dass Sweave-ähnliche Technologien nicht nur "Reproduzierbarkeit" sind. Es gibt mehrere miteinander verbundene Ziele:
- Reproduzierbarkeit
- Können die Analysen einfach wiederholt werden, um Rohdaten mit denselben Ergebnissen in einen Abschlussbericht umzuwandeln?
- Richtigkeit
- Entspricht die Datenanalyse den Absichten des Forschers?
- Sind die Absichten des Forschers richtig?
- Offenheit
- Transparenz, Rechenschaftspflicht
- Können andere die Richtigkeit der durchgeführten Analysen überprüfen und verifizieren?
- Erweiterbarkeit, Modifizierbarkeit
- Können andere die Daten, Analysen oder beides ändern, erweitern, wiederverwenden und mischen, um neue Forschungsarbeiten zu erstellen?
Es gibt ein Argument, dass reproduzierbare Analysen korrekte Analysen fördern sollten, da es eine schriftliche Aufzeichnung von Analysen gibt, die überprüft werden können. Wenn Daten und Code gemeinsam genutzt werden, entsteht eine Rechenschaftspflicht, die die Forscher dazu motiviert, ihre Analysen zu überprüfen, und die es anderen Forschern ermöglicht, Korrekturen zu notieren.
Die reproduzierbare Analyse passt auch gut zu Konzepten rund um die offene Forschung. Natürlich kann ein Forscher Sweave-ähnliche Technologien nur für sich selbst verwenden. Offene Forschungsprinzipien fördern die gemeinsame Nutzung von Daten und Analysecode, um eine bessere Wiederverwendung und Rechenschaftspflicht zu ermöglichen.
Dies ist keine wirkliche Kritik an der Verwendung des Wortes "reproduzierbar". Es wird lediglich hervorgehoben, dass der Einsatz von Sweave-ähnlichen Technologien notwendig ist, aber nicht ausreicht, um offene wissenschaftliche Forschungsziele zu erreichen.