Ich unterstreiche alle bereits gegebenen Antworten, aber nennen wir eine Katze eine Katze: In vielen Arbeitsbereichen ist es kaum unmöglich, das Management davon zu überzeugen, dass Investitionen in "exotische" Softwarewerkzeuge (die für sie exotisch sind) notwendig sind, geschweige denn, jemanden einzustellen, der es schaffen könnte es auf und pflegen es. Ich habe einigen Kunden gesagt, dass sie von der Einstellung eines Statistikers mit umfassendem Hintergrundwissen über Software und Datenbanken in hohem Maße profitieren würden, aber "no can do" lautet die allgemeine Antwort.
So lange das nicht passieren wird, gibt es einige einfache Dinge, die Sie mit Excel tun können, um das Leben leichter zu machen. Und das erste davon ist ohne Zweifel die Versionskontrolle. Weitere Informationen zur Versionskontrolle mit Excel finden Sie hier .
Einige Dinge über die Verwendung von Excel
Menschen, die EXCEL verwenden, mögen die Formelfunktionen von EXCEL sehr oft. Dies ist jedoch nach meiner Erfahrung die wichtigste Fehlerquelle in EXCEL-Tabellen und die Ursache für Probleme beim Einlesen von EXCEL-Dateien. Ich lehne es ab, mit Blättern zu arbeiten, die Formeln enthalten.
Ich zwinge auch jeden, mit dem ich zusammenarbeite, die EXCEL-Blätter in einem einfachen Format auszuliefern, was bedeutet, dass:
- Die erste Zeile enthält die Namen der verschiedenen Variablen
- Die Tabelle beginnt in Zelle A1
- Alle Daten werden in Spalten ohne Unterbrechungen und ohne Formatierung abgelegt.
- Nach Möglichkeit werden die Daten auch im CSV-Format gespeichert. Es ist nicht schwierig, ein VBA-Skript zu schreiben, mit dem die Daten extrahiert, neu formatiert und in eine CSV-Datei eingefügt werden. Dies ermöglicht auch eine bessere Versionskontrolle, da Sie jeden Tag einen CSV-Speicherauszug der Daten erstellen können.
Wenn die Daten immer eine allgemeine Struktur aufweisen, empfiehlt es sich möglicherweise, eine Vorlage mit zugrunde liegenden VB-Makros zu entwickeln, um Daten hinzuzufügen und den zu analysierenden Datensatz zu generieren. Dadurch wird im Allgemeinen vermieden, dass jeder Mitarbeiter auf ein eigenes "geniales" System zur Datenspeicherung zurückgreift, und Sie können Ihren Code in Abhängigkeit davon schreiben.
Wenn Sie jedoch alle davon überzeugen können, SQL (und ein Front-End für die Dateneingabe) zu verwenden, können Sie R direkt mit diesem verknüpfen. Dies erhöht die Leistung erheblich.
Datenstruktur und -verwaltung
In der Regel sollten die in Datenbanken (oder EXCEL-Tabellen, falls vorhanden) gespeicherten Daten das absolute Minimum sein. Das bedeutet, dass alle Variablen, die aus anderen Variablen berechnet werden können, nicht in der Datenbank enthalten sein sollten. Allerdings kann es manchmal nützlich sein, auch diese abgeleiteten oder transformierten Variablen zu speichern, wenn die Berechnungen mühsam sind und viel Zeit in Anspruch nehmen. Diese sollten jedoch in einer separaten Datenbank gespeichert werden, die gegebenenfalls mit der Originaldatenbank verknüpft ist.
Es sollte auch darüber nachgedacht werden, was als ein Fall (und damit als eine Zeile) angesehen wird. Beispielsweise neigen Menschen dazu, Zeitreihen zu erstellen, indem sie für jeden Zeitpunkt eine neue Variable erstellen. Während dies in einem EXCEL sinnvoll ist, erfordert das Einlesen dieser Daten ein ziemliches Umblättern der Datenmatrix. Gleiches gilt für den Vergleich von Gruppen: Es sollte einen Gruppenindikator und eine Antwortvariable geben, keine Antwortvariable für jede Gruppe. Auf diese Weise können auch Datenstrukturen standardisiert werden.
Ein letztes, auf das ich häufig stoße, ist die Verwendung verschiedener Metriken. Längen werden in Metern oder Zentimetern angegeben, Temperaturen in Celsius, Kelvin oder Fahrenheit, ... In jedem Frontend oder jeder Schablone sollte angegeben werden, in welcher Einheit die Variable gemessen wird.
Und selbst nach all diesen Dingen möchten Sie noch einen Datenkontrollschritt durchführen, bevor Sie tatsächlich mit der Analyse beginnen. Dies kann wiederum jedes Skript sein, das täglich (z. B. über Nacht) für neue Einträge ausgeführt wird und Probleme sofort kennzeichnet (außerhalb des Bereichs, falscher Typ, fehlende Felder, ...), damit sie so schnell wie möglich behoben werden können. Wenn Sie zu einem Eintrag zurückkehren müssen, der vor 2 Monaten erstellt wurde, um herauszufinden, was falsch ist und warum, sollten Sie einige gute "Sherlock-Fähigkeiten" erwerben, um diesen zu korrigieren.
meine 2 Cent