Gibt es irgendeinen Grund dafür, die Daten mit einer Quadratwurzel zu transformieren? Ich meine, was ich immer beobachte, ist, dass die R ^ 2 zunimmt. Aber das liegt wahrscheinlich nur an der Zentrierung der Daten! Jeder Gedanke wird geschätzt!
Gibt es irgendeinen Grund dafür, die Daten mit einer Quadratwurzel zu transformieren? Ich meine, was ich immer beobachte, ist, dass die R ^ 2 zunimmt. Aber das liegt wahrscheinlich nur an der Zentrierung der Daten! Jeder Gedanke wird geschätzt!
Antworten:
Im Allgemeinen nimmt die parametrische Regression / GLM die Beziehung zwischen der Variablen und jedem X an Variablen linear ist, dass die Residuen nach dem Anpassen des Modells einer Normalverteilung folgen und dass die Größe der Residuen in etwa gleich bleibt entlang Ihrer angepassten Linie (n). Wenn Ihre Daten diesen Annahmen nicht entsprechen, können Transformationen hilfreich sein.
Werten in Richtung der Linie werden. (Dies ist eine mentale Abkürzung, keine richtige Mathematik!)
Wie Dmitrij und Ocram sagen, ist dies nur eine mögliche Transformation, die unter bestimmten Umständen hilfreich ist. Tools wie die Box-Cox-Formel können Ihnen dabei helfen, die nützlichste auszuwählen. Ich würde empfehlen, sich daran zu gewöhnen, immer ein Diagramm von Residuen mit angepassten Werten (und auch ein Diagramm mit normaler Wahrscheinlichkeit oder ein Histogramm von Residuen) zu betrachten, wenn Sie ein Modell anpassen. Sie werden feststellen, dass Sie am Ende oft sehen können, welche Art von Transformation hilfreich ist.
.
Allerdings könnte (und ist) dieser a priori festgelegte Wert nicht optimal sein. In R können Sie eine Funktion aus der car
Bibliothek in Betracht ziehen powerTransform
, mit deren Hilfe Sie einen optimalen Wert für Box-Cox-Transformationen für jede der an der linearen Regression beteiligten Variablen oder für alle Daten, mit denen Sie arbeiten, abschätzen können ( example(powerTransform)
weitere Details siehe ).
Wenn die Variable einer Poisson-Verteilung folgt, sind die Ergebnisse der Quadratwurzel-Transformation viel näher an Gauß.
Mit Bray-Curtis berechnete Distanzmatrizen sind normalerweise für einige Daten nicht metrisch, was zu negativen Eigenwerten führt. Eine der Lösungen, um dieses Problem zu überwinden, besteht darin, es zu transformieren (logarithmisch, Quadratwurzel oder doppelte Quadratwurzel).