Ich denke, dass die Tendenz, sich mit explorativen Analysen wie in einem Kaninchenbau zu fühlen, häufig darauf zurückzuführen ist, dass Sie die wesentlichen Fragen, die Sie stellen, aus den Augen verlieren. Ich mache es gelegentlich selbst und muss mich dann daran erinnern, was meine Ziele sind. Versuchen Sie beispielsweise, ein bestimmtes Modell zu erstellen oder die Angemessenheit eines vorhandenen Modells zu bewerten? Suche ich nach Hinweisen auf Datenprobleme (z. B. forensische Datenanalyse)? Oder befasse ich mich zu Beginn der Analyse informell mit bestimmten Fragen (zB gibt es einen Zusammenhang zwischen zwei Variablen?), Bevor ich ein formales Modell erarbeite? In der Summe, wenn Sie sich dabei erwischen, wie Sie Pläne und Tabellen auf den Kopf stellen, aber nicht genau sagen können, was Ihr unmittelbares Ziel ist oder warum dieser Plan / diese Tabelle relevant ist, dann wissen Sie, dass Sie
Ich versuche, die explorative Datenanalyse so zu verstehen, wie ich sie schreibe, sei es beim Schreiben eines Programms oder eines Artikels. In jedem Fall würde ich nicht damit anfangen, zuerst einen Entwurf zu machen. Diese Gliederung kann sich natürlich ändern (und tut dies häufig), aber ohne sie zu schreiben zu beginnen ist ineffizient und führt häufig zu einem schlechten Endprodukt.
In der WRT-Organisation muss jeder Analytiker einen Workflow finden, der für ihn oder sie funktioniert. Dies ist für IMO wichtiger als der Versuch, den Workflow eines anderen streng zu befolgen (obwohl es immer hilfreich ist, Ideen von dem zu erhalten, was andere tun). Wenn Sie programmgesteuert arbeiten (dh Code schreiben, der ausgeführt werden kann, um eine Reihe von Ergebnissen zu generieren / neu zu generieren) und Ihre Arbeit in Git einchecken, sind Sie in dieser Hinsicht bereits vielen Meilen voraus. Ich vermute, dass Sie möglicherweise nur einige Zeit damit verbringen müssen, Ihren Code zu organisieren, und dafür würde ich vorschlagen, Ihrer Gliederung zu folgen. Halten Sie Ihre Analysedateien beispielsweise relativ kurz und zielgerichtet, damit jede eine bestimmte Frage beantwortet (z. B. Diagnosediagramme für ein bestimmtes Regressionsmodell). Organisieren Sie diese in Unterverzeichnissen auf einer oder zwei Ebenen, je nach Größe und Komplexität des Projekts. Auf diese Weise wird das Projekt selbstdokumentierend. Eine Listenansicht der Verzeichnisse, Unterverzeichnisse und Dateien (zusammen mit dem Kommentar oben in jeder Datei) sollte theoretisch Ihre Gliederung wiedergeben.
Natürlich verfügen Sie in einem großen Projekt möglicherweise auch über Code für die Datenbereinigung und -verwaltung, über Code, den Sie zur Schätzung eines bestimmten Modelltyps geschrieben haben, oder über andere Dienstprogramme, die Sie selbst geschrieben haben, und diese passen nicht in die Inhalte Gliederung für Ihre Datenanalyse, so sollten sie in einem anderen Teil Ihres Projektordners organisiert werden.
Update: Nachdem ich das gepostet habe, wurde mir klar, dass ich Ihre Frage zu "Sackgassen" nicht direkt angesprochen habe. Wenn Sie wirklich feststellen, dass eine ganze Reihe von Analysen keinen Wert hat, können Sie, wenn Sie in Git arbeiten, die entsprechenden Dateien jederzeit mit der Meldung "Abandoned this line of analysis" löschen, da dies nicht der Fall war produktiv." Im Gegensatz zu dem, was Sie geschrieben und in den Papierkorb geworfen haben, können Sie auf Wunsch jederzeit zu dem zurückkehren, was Sie später getan haben.
Ich denke jedoch, Sie werden feststellen, dass Sie weniger Sackgassen haben, wenn Sie von einem Entwurf ausgehen, über den Sie nachgedacht haben. Wenn Sie stattdessen Zeit damit verbringen, eine sinnvolle und relevante Frage zu untersuchen - auch wenn dies zu einer Nullfeststellung führt oder nicht so ausfällt, wie Sie es erwartet haben -, möchten Sie wahrscheinlich immer noch aufzeichnen, was Sie getan haben und wie das Ergebnis lautet (at ein Minimum, damit Sie nicht den Fehler machen, dies später zu wiederholen). Verschieben Sie diese einfach in einer Art "Anhang" an den unteren Rand Ihrer Gliederung.