Als «reproducible-research» getaggte Fragen

Forschungspraxis, vollständige experimentelle Beschreibung, gesamte gesammelte Daten und alle Datenanalyseskripte öffentlich zugänglich zu machen, damit die veröffentlichten Ergebnisse an anderer Stelle reproduziert werden können.

2
Wie viel wissen wir über P-Hacking in freier Wildbahn?
Der Ausdruck p- Hacking (auch: " Datenbaggern " , "Schnüffeln" oder "Fischen") bezieht sich auf verschiedene Arten statistischer Verfehlungen, bei denen Ergebnisse künstlich statistisch signifikant werden. Es gibt viele Möglichkeiten, ein "signifikanteres" Ergebnis zu erzielen, unter anderem: nur Analysieren einer "interessanten" Teilmenge der Daten , in denen ein Muster gefunden …

15
Vollständige inhaltliche Beispiele reproduzierbarer Forschung mit R
Die Frage: Gibt es gute Beispiele für reproduzierbare Forschung mit R, die online frei verfügbar sind? Ideales Beispiel: Im Einzelnen würden ideale Beispiele Folgendes bereitstellen: Die Rohdaten (und idealerweise Metadaten, die die Daten erklären), Alle R-Codes, einschließlich Datenimport, -verarbeitung, -analysen und -ausgabe, Sweave oder ein anderer Ansatz zum Verknüpfen der …

8
Generieren Sie eine Zufallsvariable mit einer definierten Korrelation zu einer oder mehreren vorhandenen Variablen.
Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …

3
Wie definieren wir reproduzierbare Forschung?
Dies ist jetzt in ein paar Fragen aufgetaucht, und ich habe mich über etwas gewundert. Hat sich das Feld insgesamt in Richtung "Reproduzierbarkeit" bewegt, wobei der Schwerpunkt auf der Verfügbarkeit der Originaldaten und des fraglichen Codes liegt? Mir wurde immer beigebracht, dass der Kern der Reproduzierbarkeit nicht unbedingt die Fähigkeit …

8
Wie bringe ich Leute dazu, sich besser um Daten zu kümmern?
An meinem Arbeitsplatz arbeiten Mitarbeiter unterschiedlichster Disziplinen. Daher generieren wir Daten in vielen verschiedenen Formen. Folglich hat jedes Team ein eigenes System zum Speichern von Daten entwickelt. Einige verwenden Access- oder SQL-Datenbanken. Einige Teams sind (zu meinem Entsetzen) fast ausschließlich auf Excel-Tabellen angewiesen. Oft ändern sich die Datenformate von Projekt …

5
Ist der p-Wert im Wesentlichen nutzlos und gefährlich in der Anwendung?
Dieser Artikel " The Odds, Continually Updated" von der NY Times erregte meine Aufmerksamkeit. Um es kurz zu machen, heißt es dort [Bayesian Statistics] erweist sich als besonders nützlich bei der Bewältigung komplexer Probleme, einschließlich der Suche nach dem vermissten Fischer John Aldridge, wie sie die Küstenwache 2013 durchgeführt hat …

6
Wie kann die langfristige Reproduzierbarkeit der Forschung erhöht werden (insbesondere mit R und Sweave)?
Kontext: Als Antwort auf eine frühere Frage zur reproduzierbaren Forschung schrieb Jake Ein Problem, das wir beim Erstellen unseres JASA-Archivs festgestellt haben, war, dass sich Versionen und Standardeinstellungen von CRAN-Paketen geändert haben. In diesem Archiv sind also auch die Versionen der von uns verwendeten Pakete enthalten. Das vignettenbasierte System wird …


2
Was sind einige Standardverfahren zum Erstellen synthetischer Datensätze?
Als Kontext: Wenn ich mit einem sehr großen Datensatz arbeite, werde ich manchmal gefragt, ob wir einen synthetischen Datensatz erstellen können, in dem wir die Beziehung zwischen Prädiktoren und der Antwortvariablen oder die Beziehungen zwischen Prädiktoren "kennen". Im Laufe der Jahre scheinen mir entweder einmalige synthetische Datensätze zu begegnen, die …

4
Kann ich als Prüfer die Bereitstellung von angeforderten Daten und Code rechtfertigen, auch wenn das Journal dies nicht tut?
Da die Wissenschaft per Definition reproduzierbar sein muss, wird zunehmend erkannt, dass Daten und Code ein wesentlicher Bestandteil der Reproduzierbarkeit sind, wie dies vom Yale Roundtable für die gemeinsame Nutzung von Daten und Code erörtert wurde . Wenn ich ein Manuskript für eine Zeitschrift überprüfe, für die keine gemeinsame Nutzung …

1
Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?
Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …


1
Was ist, wenn die Validierungsgenauigkeit hoch und die Testgenauigkeit in der Forschung niedrig ist?
Ich habe eine spezielle Frage zur Validierung in der maschinellen Lernforschung. Wie wir wissen, fordert das Regime des maschinellen Lernens die Forscher auf, ihre Modelle anhand der Trainingsdaten zu trainieren, anhand des Validierungssatzes aus den Kandidatenmodellen auszuwählen und die Genauigkeit des Testsatzes zu melden. In einer sehr strengen Studie kann …

3
Hosting-Optionen für öffentlich verfügbare Daten
Sie haben sich also entschlossen, die Idee reproduzierbarer Recherchen zu unterstützen, und möchten Ihre Daten online zur Verfügung stellen, damit sie angezeigt und verwendet werden können. Die Frage ist, wo Sie es hosten? Meine erste Neigung ist natürlich der private Webspace, den ich auf einem Universitätsserver habe, aber diese Dinge …

4
Auswirkungen der aktuellen Debatte auf die statistische Signifikanz
In den letzten Jahren haben verschiedene Wissenschaftler ein nachteiliges Problem beim Testen wissenschaftlicher Hypothesen angesprochen, das als "Freiheitsgrad der Forscher" bezeichnet wird. Dies bedeutet, dass Wissenschaftler während ihrer Analyse zahlreiche Entscheidungen treffen müssen, die darauf abzielen, mit einem p-Wert <5% zu finden. Diese zweideutigen Entscheidungen sind zum Beispiel, welcher Fall …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.