Eine Aussage und sechs Fragen hier.
Beachten Sie jedoch zunächst, dass der Name "Box-Cox" im richtigen Fall Standard ist.
Die Box-Cox-Transformation wandelt unsere Daten in eine Normalverteilung um.
Das ist höchstens das Ziel. Es kann nicht immer erreicht werden, auch nicht annähernd. Beispielsweise kann eine Verteilung, bei der es sich im Wesentlichen um eine Reihe von Spitzen handelt, nur in eine andere Reihe von Spitzen umgewandelt werden.
Wie ist das überhaupt eine richtige Technik?
Inwiefern ist es umgekehrt unangemessen? Die allgemeine Idee der Transformation ist, dass es einfacher sein kann, zu sehen und zu analysieren, was auf einer transformierten Skala geschieht, während es speziell viele Techniken gibt, für die eine Annäherung an die Normalverteilung (en) vorgesehen ist, wenn nicht Bedingungen, die als wahr angenommen werden , wie so oft gesagt, dann zumindest relativ ideale Bedingungen für Zusammenfassung und Folgerung. Beachten Sie, dass verallgemeinerte lineare Modelle die Idee der Anpassung auf einer transformierten Skala übernehmen, ohne die Transformation der Antwortvariablen tatsächlich zu verpflichten.
Was wäre, wenn unsere Daten nicht aus einer Normalverteilung stammen würden?
Es ist nicht klar, was das Rätsel hier ist. Gerade wenn Daten nicht normal verteilt sind, stellt sich die Frage, ob es eine einfache Transformation zur Normalität gibt.
Wie könnte jemand die Box-Cox-Transformation einfach blind anwenden?
Wie oben. Einige Leute wenden blind jede statistische Technik an, die sie verwenden, und statistische Leute neigen dazu, dies eher zu missbilligen als zu billigen. Gleichzeitig ist das Leben kurz und es gibt ein Element des Vertrauens in die meisten Techniken, da niemand alles ableiten und rechtfertigen kann, was sie tun.
Die anderen Fragen sehen aus wie die gleichen Fragen, die neu formuliert wurden, oder mir fehlen Nuancen. Aber im Gegenzug werde ich wiederholen, was mir als einfacher Schlüssel erscheint: Normalverteilungen sind oft ein Ideal, aber viele Techniken funktionieren gut, auch wenn dieses Ideal nicht erfüllt ist.
In dieser Entfernung scheinen mir die Hauptbeiträge der Box-Cox-Formulierung von 1964 zu sein
Die Idee, dass die Daten selbst Ihnen sagen, welche Transformation am besten geeignet ist. (Wir sollten hinzufügen, dass manchmal keine Transformation genug hilft, um eine Anwendung wert zu sein.) Box und Cox haben diese datengesteuerte Wahl der Transformation auf verschiedene Weise formalisiert, aber der wichtige Punkt ist implizit oder explizit, verschiedene Transformationen systematisch auszuprobieren. (Allzu oft scheint die Suche nach Transformation im Dunkeln zu stechen, als wenn Leute Ihnen sagen, dass sie Logarithmen und Quadrieren versucht haben, aber nichts funktioniert.)
Die Idee, dass die meisten verwendeten Transformationen, insbesondere für positive Messgrößen oder gezählte Variablen, zu einer Familie gehören, die nicht nur die Potenzen, sondern auch Logarithmen umfasst. Diese Idee wurde auch früher vielfach betont, insbesondere von Tukey (1957), dessen Artikel von Box und Cox seltsamerweise nicht zitiert wurde, aber die Formulierung von Box und Cox, gefolgt von Tukeys späterer Arbeit, scheint die Idee erfolgreicher populär gemacht zu haben einer Familie. Wie bereits erwähnt, macht die Betonung der Wahl aus einer Familie die Idee der Wahl der Transformation systematischer und weniger ad hoc. Beachten Sie, dass Box-Cox nicht aussagekräftig ist, wie die Entscheidung aussehen soll. In ihren eigenen Beispielen wählen sie Logarithmen und reziproke Transformationen und runden so die durch ihr Schätzverfahren gegebenen Potenzen ab. In der Tat waren beide Beispiele von der Art, in der erfahrene Analysten die gleiche Transformation auf irgendeine Weise vor ihrem Papier gewählt hätten.
Box, GEP und Cox, DR 1964. Eine Analyse der Transformationen. Zeitschrift der Royal Statistical Society, Reihe B 26: 211–252.
Tukey, JW 1957. Zur vergleichenden Anatomie von Transformationen. Annals of Mathematical Statistics 28, 602-632. doi: 10.1214 / aoms / 1177706875. http://projecteuclid.org/euclid.aoms/1177706875 .