Als begeisterter Benutzer von R, Bash, Python, ASCIIIDOC, (La) TeX, Open Source-Software oder anderen un * x-Tools kann ich keine objektive Antwort geben. Da ich außerdem häufig gegen die Verwendung von MS Excel oder Tabellenkalkulationen jeglicher Art argumentiere (na ja, Sie sehen Ihre Daten oder einen Teil davon, aber was noch?), Würde ich keinen positiven Beitrag zur Debatte leisten. Ich bin nicht der einzige, z
- Spreadsheet Addiction von P. Burns.
- Die Präzision und Genauigkeit von MS Excel , ein Beitrag auf der R-Mailingliste von 2004
- L. Knusel, Zur Genauigkeit statistischer Verteilungen in Microsoft Excel 97 , Computational Statistics & Data Analysis, 26: 375–377, 1998. ( pdf )
- BD McCullough & B. Wilson, Zur Genauigkeit statistischer Verfahren in Microsoft Excel 2000 und Excel XP , Computational Statistics & Data Analysis , 40: 713–721, 2002.
- M. Altman, J. Gill und MP McDonald, Numerical Issues in Statistical Computing für den Sozialwissenschaftler , Wiley, 2004. [zB, S. 12-14]
Ein Kollege von mir verliert alle seine Makros wegen mangelnder Abwärtskompatibilität usw. Ein anderer Kollege hat versucht, genetische Daten (etwa 700 Probanden, die auf 800.000 Markern genotypisiert sind, 120 Mo) zu importieren, um sie sich nur "anzusehen". Excel ist fehlgeschlagen, Notepad hat auch aufgegeben ... Ich kann sie mit vi "anschauen" und die Daten schnell mit einem sed / awk- oder perl-Skript neu formatieren. Ich denke, es gibt verschiedene Ebenen, die bei der Erörterung des Nutzens von Tabellenkalkulationen zu berücksichtigen sind. Entweder Sie arbeiten an kleinen Datenmengen und möchten nur elementare statistische Daten anwenden, und vielleicht ist das in Ordnung. Dann liegt es an Ihnen, den Ergebnissen zu vertrauen, oder Sie können jederzeit nach dem Quellcode fragen. Vielleicht ist es jedoch einfacher, einen schnellen Test aller Inline-Verfahren mit dem NIST-Benchmark durchzuführen. Ich denke nicht, dass dies einer guten Art der Statistik entspricht, nur weil dies keine echte Statistiksoftware (IMHO) ist, obwohl neuere Versionen von MS Excel als Aktualisierung der oben genannten Liste Verbesserungen in ihrer Genauigkeit für gezeigt haben statistische Analysen, siehe Keeling und Pavur, Eine vergleichende Studie zur Zuverlässigkeit von neun statistischen Softwarepaketen ( CSDA 2007 51: 3811).
Dennoch enthält etwa eine von 10 oder 20 Arbeiten (in der Biomedizin, Psychologie, Psychiatrie) Grafiken, die mit Excel erstellt wurden, manchmal ohne den grauen Hintergrund, die horizontale schwarze Linie oder die automatische Legende zu entfernen (Andrew Gelman und Hadley Wickham sind mit Sicherheit so glücklich wie ich, wenn ich es sehe). Im Allgemeinen ist es jedoch die am häufigsten verwendete "Software", wie eine kürzlich durchgeführte Umfrage zu FlowingData ergab. Diese Umfrage erinnert mich an einen alten Vortrag von Brian Ripley (der das MASS R-Paket mitverfasst hat und ein hervorragendes Buch über Mustererkennung verfasst hat) , unter anderen):
Machen wir uns nichts vor: Die am häufigsten verwendete Statistiksoftware ist Excel (B. Ripley über Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Wenn Sie jetzt das Gefühl haben, dass es Ihnen eine schnelle und einfachere Möglichkeit bietet, Ihre Statistiken zu erstellen, warum nicht? Das Problem ist, dass es in einer solchen Umgebung immer noch Dinge gibt, die nicht erledigt werden können (oder zumindest etwas knifflig sind). Ich denke an Bootstrap, Permutation, multivariate explorative Datenanalyse, um nur einige zu nennen. Sofern Sie nicht sehr gut mit VBA (weder Skriptsprache noch Programmiersprache) vertraut sind, bin ich der Meinung, dass selbst geringfügige Vorgänge mit Daten unter R (oder Matlab oder Python) besser gehandhabt werden können, sofern Sie das richtige Tool für den Umgang erhalten mit zB so genannten data.frame). Vor allem denke ich, dass Excel keine sehr guten Praktiken für den Datenanalytiker fördert (aber es gilt auch für jedes "Cliquodrome", siehe die Diskussion über Medstats über die Notwendigkeit, eine Aufzeichnung der Datenverarbeitung zu führen,Dokumentieren von Analysen und Datenbearbeitungen ), und ich fand diesen Beitrag über Praktische Statistiken relativ anschaulich für einige Excel-Fallstricke. Trotzdem gilt es für Excel. Ich weiß nicht, wie es in GDocs übersetzt wird.
In Bezug auf das Teilen Ihrer Arbeit bin ich der Meinung, dass Github (oder Gist für Quellcode) oder Dropbox (obwohl EULA einige Leute möglicherweise davon abhält) sehr gute Optionen sind (Änderungsverlauf, Verwaltung von Zuwendungen, falls erforderlich, usw.). Ich kann die Verwendung einer Software, in der Ihre Daten grundsätzlich im Binärformat gespeichert sind, nicht empfehlen. Ich weiß, dass es in R, Matlab, Stata, SPSS importiert werden kann, aber meiner Meinung nach:
- Die Daten sollten definitiv in einem Textformat vorliegen, das von einer anderen Statistiksoftware gelesen werden kann.
- Die Analyse sollte reproduzierbar sein, dh Sie sollten ein vollständiges Skript für Ihre Analyse bereitstellen und es sollte jederzeit auf einem anderen Betriebssystem ausgeführt werden (wir nähern uns dem Idealfall hier in der Nähe ...).
- Ihre eigene Statistiksoftware sollte anerkannte Algorithmen implementieren und es sollte eine einfache Möglichkeit geben, diese zu aktualisieren, um die aktuellen Best Practices bei der statistischen Modellierung widerzuspiegeln.
- Das von Ihnen gewählte Freigabesystem sollte Versionsverwaltung und Funktionen für die Zusammenarbeit enthalten.
Das ist es.