Gute Variablennamen sind:
a) kurz / leicht zu tippen,
b) leicht zu merken,
c) verständlich / kommunikativ.
Vergesse ich etwas? Konsistenz ist etwas zu suchen. Ich würde sagen, dass konsistente Namenskonventionen zu den oben genannten Eigenschaften beitragen. Konsistenz trägt zu (b) leichtem Rückruf und (c) Verständlichkeit bei, obwohl andere Faktoren oft wichtiger sind. Es gibt einen klaren Kompromiss zwischen (a) Namenslänge / einfacher Eingabe (z. B. Kleinbuchstaben) und (c) Verständlichkeit.
Ich investiere einiges in diese Themen, weil Tausende von Menschen die Daten verwenden, und ich hoffe, dass viele meinen Code verwenden werden , um die Daten vorzubereiten und einige Arten von Analysen zu ermöglichen. Die Daten aus der Längsschnittstudie zur Gesundheit von Jugendlichen sind in mehrere Datensätze unterteilt. Mein erster Schritt bestand darin, die 227 Variablen im am häufigsten verwendeten Datensatz zu übernehmen, sie neu zu codieren und ihnen aussagekräftigere Namen zu geben. Ursprüngliche Variablennamen sind Dinge wie "aid", "s1", "s2", die ich in "aid2", "age" und "male.is" umbenannt habe. Es gibt Tausende anderer Variablen in den anderen Datensätzen, die je nach den Zielen des Forschers zusammengeführt werden können.
Solange ich Variablen umbenenne, möchte ich sie so nützlich wie möglich machen. Hier sind einige der Probleme, die ich berücksichtigt habe. Bisher habe ich nur Kleinbuchstaben verwendet und es vermieden, Bindestriche oder Unterstriche zu verwenden, und ich habe Punkte nur für einen ganz bestimmten Zweck verwendet. Dies hat den Vorteil der Einfachheit und Konsistenz und verursacht für die meisten Variablen keine Probleme. Aber wenn die Dinge komplexer werden, bin ich versucht, meine Konsistenz zu brechen. Nehmen wir zum Beispiel meine Variable "talkprobmsum", es wäre einfacher, sie als "talkProbMSum" oder besser als "talk.prob.m.sum" zu lesen, aber wenn ich Großbuchstaben oder Punkte verwenden würde, um Wörter zu trennen sollte ich es nicht für alle Variablen tun?
Einige Variablen werden mehr als einmal aufgezeichnet, z. B. die Rennvariablen, daher habe ich .is oder .ih angehängt, um anzugeben, ob sie aus dem Fragebogen in der Schule oder zu Hause stammen. Aber es gibt sicherlich einige Wiederholungen, die mir noch nicht bekannt sind. Wäre es besser, einen Verweis auf den Datensatz an den Namen jeder Variablen anzuhängen?
Ich muss viele Variablen gruppenzentrieren und standardisieren. So habe ich es gemacht, indem ich .zms angehängt habe, was Z-Score nach Mann und Schule bedeutet.
Allgemeine oder spezifische Gedanken oder Ressourcen werden sehr geschätzt. In diesem Repository finden Sie einen Teil meines Codes sowie beschreibende Statistiken mit einer Liste von Variablennamen. Ich kurz beschrieben , den Grund für den Austausch von diesem Code hier , und es war ein wenig beachteten hier , aber diese letzten beiden Links sind nicht wirklich relevant für die Frage der variablen Namenskonventionen. Hinzugefügt: Ich habe dies leicht bearbeitet und meistens nur einen Absatz verschoben, um zu versuchen, die Verwirrung in den Kommentaren zu vermeiden. Danke für die Gedanken!
Hinzugefügt am 05.09.2016: Es lohnt sich, Hadley Wickhams R Style Guide und Googles R Style Guide zu erwähnen ... Hadley sagt:
Variablen- und Funktionsnamen sollten in Kleinbuchstaben geschrieben werden. Verwenden Sie einen Unterstrich (_), um Wörter innerhalb eines Namens zu trennen.
Google sagt:
Verwenden Sie in Bezeichnern keine Unterstriche (_) oder Bindestriche (-). Bezeichner sollten gemäß den folgenden Konventionen benannt werden. Die bevorzugte Form für Variablennamen sind alle Kleinbuchstaben und Wörter, die durch Punkte (Variablenname) getrennt sind. Variablenname wird jedoch ebenfalls akzeptiert. Funktionsnamen haben Anfangsbuchstaben und keine Punkte (Funktionsname); Konstanten werden wie Funktionen benannt, jedoch mit einem Anfangsbuchstaben k.
R
, sondern um geeignete Methoden zur Dokumentation und Verwendung von Daten.