Kontext: Als Antwort auf eine frühere Frage zur reproduzierbaren Forschung schrieb Jake
Ein Problem, das wir beim Erstellen unseres JASA-Archivs festgestellt haben, war, dass sich Versionen und Standardeinstellungen von CRAN-Paketen geändert haben. In diesem Archiv sind also auch die Versionen der von uns verwendeten Pakete enthalten. Das vignettenbasierte System wird wahrscheinlich kaputt gehen, wenn Leute ihre Pakete ändern (nicht sicher, wie zusätzliche Pakete in das Paket, das das Kompendium ist, aufgenommen werden sollen).
Schließlich frage ich mich, was ich tun soll, wenn sich R selbst ändert. Gibt es Möglichkeiten, beispielsweise eine virtuelle Maschine zu erstellen, die die gesamte für ein Papier verwendete Computerumgebung so reproduziert, dass die virtuelle Maschine nicht übermäßig groß ist?
Frage:
- Was sind gute Strategien, um sicherzustellen, dass reproduzierbare Datenanalysen in Zukunft reproduzierbar sind (etwa fünf, zehn oder zwanzig Jahre nach Veröffentlichung)?
- Welche Strategien bieten sich insbesondere an, um die fortlaufende Reproduzierbarkeit bei Verwendung von Sweave und R zu maximieren?
Dies hängt anscheinend damit zusammen, dass sichergestellt werden muss, dass ein Projekt zur reproduzierbaren Datenanalyse auf einem anderen Computer mit geringfügig unterschiedlichen Standardeinstellungen, Paketen usw. ausgeführt wird.