Verwenden einige von Ihnen Google Text & Tabellen, um Ihre statistischen Arbeiten durchzuführen und mit anderen zu teilen?


15

Ich weiß, dass die meisten von Ihnen wahrscheinlich der Meinung sind, dass Google Docs immer noch ein primitives Tool ist. Es ist kein Matlab oder R und nicht einmal Excel. Ich bin jedoch verblüfft über die Leistungsfähigkeit dieser webbasierten Software, die nur die Bedienungsmöglichkeiten eines Browsers nutzt (und mit vielen Browsern kompatibel ist, die sehr unterschiedlich funktionieren).

Mike Lawrence, der in diesem Forum aktiv ist, hat eine Tabelle mit uns geteilt, in der Google Text & Tabellen verwendet wird, um einige ziemlich ausgefallene Dinge damit zu tun. Ich persönlich habe ein ziemlich gründliches Framework für Hypothesentests (einschließlich zahlreicher parametrischer und nichtparametrischer Tests) repliziert, das ursprünglich in Excel in Google Text & Tabellen durchgeführt wurde.

Ich bin interessiert, ob einer von Ihnen Google Text & Tabellen ausprobiert und in interessanten Anwendungen an seine Grenzen gestoßen hat. Ich bin auch daran interessiert, Informationen zu den Fehlern oder Mängeln zu erhalten, die Sie bei Google Text & Tabellen festgestellt haben

Ich bezeichne diese Frage als "für Community-Wiki", was bedeutet, dass es dafür keine besten Antworten gibt. Es ist mehr eine Umfrage als alles andere.


Könnten Sie auf die bereitgestellte Tabelle Mike Lawrence verlinken?
Andy W

Hier ist die URL spreadsheets.google.com/... Es wurde auf seine Frage im Zusammenhang stats.stackexchange.com/questions/2956/...
Sympa

1
Bei den meisten statistischen Berechnungen schnitten Google-Dokumente, wenn sie offiziell getestet wurden, miserabel ab (wenn dies überhaupt möglich war). Siehe Kellie B. Keeling und Robert J. Pavur (2011): Statistische Genauigkeit von Tabellenkalkulationssoftware, The American Statistician, 65: 4, 265-273
whuber

Antworten:


12

Meine Hauptanwendung für Google-Kalkulationstabellen waren Google-Formulare, um Daten zu sammeln und diese dann problemlos in R zu importieren. Hier ein Beitrag, den ich vor einem halben Jahr darüber geschrieben habe:

Google Spreadsheets + Google Forms + R = Einfaches Sammeln und Importieren von Daten zur Analyse

Wenn Sie in Zusammenarbeit sind, ist mein Werkzeug der Wahl DropBox. Ich habe vor ein paar Monaten einen Beitrag dazu geschrieben:

Dateien über Computer mit DropBox synchronisieren

Ich benutze es jetzt seit ungefähr einem halben Jahr für ein Projekt mit 5 Co-Autoren und es war von unschätzbarem Wert (beim Synchronisieren von Datendateien von 3 Mitwirkenden kann jeder die neueste Version der Ausgabe sehen, die ich produziere, und jeder sucht zur selben .docx-Datei für den Artikel).

Beide Beiträge bieten Video-Tutorials und mündliche Anweisungen.


Vielen Dank für Ihr Feedback. Dies ist genau die Art von Kommentaren, die mich interessiert haben. Sie haben die Freigabe- und Importkomponente von Google-Dokumenten wirklich genutzt. Schön für dich. Ich werde Ihr Material lesen, um mehr darüber zu erfahren.
Sympa

Lieber Gaetan, ich freue mich über Ihre Antwort - vielen Dank für die freundlichen Worte. Beste, Tal.
Tal Galili

19

Als begeisterter Benutzer von R, Bash, Python, ASCIIIDOC, (La) TeX, Open Source-Software oder anderen un * x-Tools kann ich keine objektive Antwort geben. Da ich außerdem häufig gegen die Verwendung von MS Excel oder Tabellenkalkulationen jeglicher Art argumentiere (na ja, Sie sehen Ihre Daten oder einen Teil davon, aber was noch?), Würde ich keinen positiven Beitrag zur Debatte leisten. Ich bin nicht der einzige, z

Ein Kollege von mir verliert alle seine Makros wegen mangelnder Abwärtskompatibilität usw. Ein anderer Kollege hat versucht, genetische Daten (etwa 700 Probanden, die auf 800.000 Markern genotypisiert sind, 120 Mo) zu importieren, um sie sich nur "anzusehen". Excel ist fehlgeschlagen, Notepad hat auch aufgegeben ... Ich kann sie mit vi "anschauen" und die Daten schnell mit einem sed / awk- oder perl-Skript neu formatieren. Ich denke, es gibt verschiedene Ebenen, die bei der Erörterung des Nutzens von Tabellenkalkulationen zu berücksichtigen sind. Entweder Sie arbeiten an kleinen Datenmengen und möchten nur elementare statistische Daten anwenden, und vielleicht ist das in Ordnung. Dann liegt es an Ihnen, den Ergebnissen zu vertrauen, oder Sie können jederzeit nach dem Quellcode fragen. Vielleicht ist es jedoch einfacher, einen schnellen Test aller Inline-Verfahren mit dem NIST-Benchmark durchzuführen. Ich denke nicht, dass dies einer guten Art der Statistik entspricht, nur weil dies keine echte Statistiksoftware (IMHO) ist, obwohl neuere Versionen von MS Excel als Aktualisierung der oben genannten Liste Verbesserungen in ihrer Genauigkeit für gezeigt haben statistische Analysen, siehe Keeling und Pavur, Eine vergleichende Studie zur Zuverlässigkeit von neun statistischen Softwarepaketen ( CSDA 2007 51: 3811).

Dennoch enthält etwa eine von 10 oder 20 Arbeiten (in der Biomedizin, Psychologie, Psychiatrie) Grafiken, die mit Excel erstellt wurden, manchmal ohne den grauen Hintergrund, die horizontale schwarze Linie oder die automatische Legende zu entfernen (Andrew Gelman und Hadley Wickham sind mit Sicherheit so glücklich wie ich, wenn ich es sehe). Im Allgemeinen ist es jedoch die am häufigsten verwendete "Software", wie eine kürzlich durchgeführte Umfrage zu FlowingData ergab. Diese Umfrage erinnert mich an einen alten Vortrag von Brian Ripley (der das MASS R-Paket mitverfasst hat und ein hervorragendes Buch über Mustererkennung verfasst hat) , unter anderen):

Machen wir uns nichts vor: Die am häufigsten verwendete Statistiksoftware ist Excel (B. Ripley über Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Wenn Sie jetzt das Gefühl haben, dass es Ihnen eine schnelle und einfachere Möglichkeit bietet, Ihre Statistiken zu erstellen, warum nicht? Das Problem ist, dass es in einer solchen Umgebung immer noch Dinge gibt, die nicht erledigt werden können (oder zumindest etwas knifflig sind). Ich denke an Bootstrap, Permutation, multivariate explorative Datenanalyse, um nur einige zu nennen. Sofern Sie nicht sehr gut mit VBA (weder Skriptsprache noch Programmiersprache) vertraut sind, bin ich der Meinung, dass selbst geringfügige Vorgänge mit Daten unter R (oder Matlab oder Python) besser gehandhabt werden können, sofern Sie das richtige Tool für den Umgang erhalten mit zB so genannten data.frame). Vor allem denke ich, dass Excel keine sehr guten Praktiken für den Datenanalytiker fördert (aber es gilt auch für jedes "Cliquodrome", siehe die Diskussion über Medstats über die Notwendigkeit, eine Aufzeichnung der Datenverarbeitung zu führen,Dokumentieren von Analysen und Datenbearbeitungen ), und ich fand diesen Beitrag über Praktische Statistiken relativ anschaulich für einige Excel-Fallstricke. Trotzdem gilt es für Excel. Ich weiß nicht, wie es in GDocs übersetzt wird.

In Bezug auf das Teilen Ihrer Arbeit bin ich der Meinung, dass Github (oder Gist für Quellcode) oder Dropbox (obwohl EULA einige Leute möglicherweise davon abhält) sehr gute Optionen sind (Änderungsverlauf, Verwaltung von Zuwendungen, falls erforderlich, usw.). Ich kann die Verwendung einer Software, in der Ihre Daten grundsätzlich im Binärformat gespeichert sind, nicht empfehlen. Ich weiß, dass es in R, Matlab, Stata, SPSS importiert werden kann, aber meiner Meinung nach:

  • Die Daten sollten definitiv in einem Textformat vorliegen, das von einer anderen Statistiksoftware gelesen werden kann.
  • Die Analyse sollte reproduzierbar sein, dh Sie sollten ein vollständiges Skript für Ihre Analyse bereitstellen und es sollte jederzeit auf einem anderen Betriebssystem ausgeführt werden (wir nähern uns dem Idealfall hier in der Nähe ...).
  • Ihre eigene Statistiksoftware sollte anerkannte Algorithmen implementieren und es sollte eine einfache Möglichkeit geben, diese zu aktualisieren, um die aktuellen Best Practices bei der statistischen Modellierung widerzuspiegeln.
  • Das von Ihnen gewählte Freigabesystem sollte Versionsverwaltung und Funktionen für die Zusammenarbeit enthalten.

Das ist es.


@ Gaetan Abgesehen von meiner Antwort habe ich die Frage mit +1 bewertet, da ich denke, dass sie für die Diskussion über statistische Praxis und Projektmanagement sehr relevant ist.
chl

Ein Kommentar für die Ablehnung wäre sehr dankbar.
Chl

@chl: Obwohl ich diese Antwort nicht abgelehnt habe, glaube ich zu verstehen, warum man sie abgelehnt hat. Die von Ihnen angegebenen Informationen sind korrekt, sehr wichtig und regen zum Nachdenken an. Das meiste davon (mit Ausnahme der letzten beiden Absätze) beantwortet die Frage jedoch nicht. Im Idealfall würde man diesen großen Haftungsausschluss an anderer Stelle schreiben und einen Link darauf setzen.
Boris Gorelik

@chl: Trotz allem, was ich in meinem Kommentar gesagt habe, liebe ich Ihre Antwort und stimme ab
Boris Gorelik

@bgbg Danke für deinen Kommentar. Vielleicht habe ich die CW-Frage nicht beantwortet. Ich wollte jedoch nie eine rein provokative Antwort geben. Das OP erkundigte sich nach potenziellen "Fehlern und Mängeln" in GDocs: Ich liefere Abbildungen zu dem, was ich aus Excel weiß, und erkenne an, dass ich nicht weiß, wie es in GDocs übersetzt werden soll. Ich verstehe einen Teil der Frage auch als "Was sind die Vorteile der Verwendung von GDocs für die Datenanalyse", und ich habe nur einige Argumente gegen die Verwendung von Tabellenkalkulationen für Großprojekte oder für Analysen am Rande der Entwicklung angeführt (was ich immer noch am Anfang, dass dies voreingenommen wäre).
Chl

10

"Ich bin auch daran interessiert, Informationen zu den Fehlern oder Mängeln zu erhalten, die bei Google Text & Tabellen aufgetreten sind."

Ich werde nur auf diesen Teil der ursprünglichen Frage antworten. Bei meinen Untersuchungen mit Google Text & Tabellen (GSheets) ging es um die mathematischen und statistischen Funktionen. Letztendlich bin ich der Meinung, dass Google Spreadsheets 2012 in dieser Hinsicht dem bösartigen Excel von 1997 weit unterlegen ist.

Zeuge: Google Sheets bewertet offenbar erfc (x) mit erfc (x) = 1-erf (x) für Argumente, für die erf (x) nahe 1 liegt. Sie bewerten eine Standardabweichung oder eine Varianz über den Durchschnitt der Quadrate minus Quadrat vom Durchschnitt; Es ist eine schlechte numerische Praxis. Kombinatorische Funktionen und diskrete Wahrscheinlichkeiten wie Poisson (n, x) = pow (x, n) * exp (-x) / n! werden faktorweise ausgewertet, was zu einem unnötigen Überlauf führt. Die Fakultät wird unter Verwendung der faktorweisen Näherung von Stirling ausgewertet, was zu einem weiteren unnötigen Überlauf führt. Die kumulative Poisson-Verteilung wird einfach durch Ausführen der endlichen Summe bewertet, sodass die Normalisierungseigenschaft in der Rundung verloren geht. Gleiches gilt für die kumulative Binomialverteilung. Die kumulative Normalverteilung ist völlig durcheinander; es geht außerhalb des [0,1] Bereichs. Es gibt einen allgemeinen Genauigkeitsverlust in Bezug auf die Implementierungen der gleichen Funktionen in anderen Paketen. Die Beschreibungen elementarer Funktionen wie das Runden sind oft verstümmelt und unverständlich. Die Interpretation ist ein Ratespiel.

Ich habe diese Probleme in zwei Sätzen von Beiträgen in den Google Docs-Produktforen dokumentiert:

(2011-11-13 und höher) normdist wirft immer noch einen negativen Wert https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 und höher) Fehler und andere Probleme mit statistischen und mathematischen Funktionen in GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1) Mit anderen Worten, es scheint offensichtlich, dass die ( vielen! ) Statistiker bei Google in keinster Weise an diesem Projekt beteiligt sind.
Kardinal

Der einzige Teil von Google Text & Tabellen, den ich verwendet habe, ist der Editor, der beim gemeinsamen Bearbeiten in Echtzeit sehr nützlich ist . Ich glaube nicht, dass git and friends dieses Problem löst!
kjetil b halvorsen
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.