Wir lieben die normale Form
In den meisten Fällen versuchen wir, sie wie normal zu verhalten. Es ist keine Sichtweise der Klassifikatoren, sondern eine Sicht der Feature-Extraktion!
Welche Transformation ?
Das Hauptkriterium bei der Auswahl einer Transformation ist: Was funktioniert mit den Daten? Wie die obigen Beispiele zeigen, ist es wichtig, auch zwei Fragen zu berücksichtigen.
Was macht physikalisch (biologisch, ökonomisch, was auch immer) Sinn, zum Beispiel in Bezug auf die Begrenzung des Verhaltens, wenn Werte sehr klein oder sehr groß werden? Diese Frage führt oft zur Verwendung von Logarithmen.
Können wir Maße und Einheiten einfach und bequem halten? Nach Möglichkeit bevorzugen wir einfach zu überlegende Maßstäbe.
Die Kubikwurzel eines Volumens und die Quadratwurzel einer Fläche haben beide die Längenmaße, so weit es die Dinge nicht kompliziert, können solche Transformationen sie vereinfachen. Reziprozale haben normalerweise einfache Einheiten, wie bereits erwähnt. Oft sind jedoch etwas komplizierte Einheiten ein Opfer, das gemacht werden muss.
Wann was verwenden ?
Die nützlichsten Transformationen in der einführenden Datenanalyse sind der Kehrwert, der Logarithmus, die Kubikwurzel, die Quadratwurzel und das Quadrat. Im Folgenden wird angenommen, dass Transformationen, auch wenn sie nicht hervorgehoben werden, nur in Bereichen verwendet werden, in denen sie (endliche) reelle Zahlen als Ergebnisse liefern.
- Wechselseitige : Die reziproke, x 1 / x, mit seinem den negativen reziproken Geschwister, x bis -1 / x ist eine sehr starke Transformation mit einem drastischen Effekt auf Verteilungsform. Es kann nicht auf Nullwerte angewendet werden. Obwohl es auf negative Werte angewendet werden kann, ist es nur sinnvoll, wenn alle Werte positiv sind. Der Kehrwert eines Verhältnisses kann oft so einfach interpretiert werden wie das Verhältnis selbst: Beispiel:
- Bevölkerungsdichte (Menschen pro Flächeneinheit) wird Fläche pro Person
- Personen pro Arzt werden Ärzte pro Person
- Erosionsraten werden zu Zeit, um eine Einheitstiefe zu erodieren
(In der Praxis möchten wir die Ergebnisse der Kehrwertbildung möglicherweise mit einer Konstanten wie 1000 oder 10000 multiplizieren oder dividieren, um Zahlen zu erhalten, die einfach zu verwalten sind, die sich jedoch selbst nicht auf die Schiefe oder Linearität auswirken.)
Der Kehrwert kehrt die Reihenfolge zwischen Werten desselben Vorzeichens um: Größter wird kleinster usw. Der negative Kehrwert behält die Reihenfolge zwischen Werten desselben Vorzeichens bei.
Logarithmus : Der Logarithmus x log 10 x oder x log ex oder ln x oder x log 2 x ist eine starke Transformation, die einen großen Einfluss auf die Verteilungsform hat. Es wird üblicherweise zur Reduzierung der rechten Schräglage verwendet und ist häufig für Messgrößen geeignet. Es kann nicht auf Null oder negative Werte angewendet werden. Eine Einheit auf einer logarithmischen Skala bedeutet eine Multiplikation mit der Basis der verwendeten Logarithmen. Exponentielles Wachstum oder Rückgang.
- y= a e x p ( b x )
l n y= l n a + b xx = 0y= a e x p ( 0 ) = a so dass a der Betrag oder die Anzahl ist, wenn x = 0. Wenn a und b> 0, wächst y immer schneller (z. B. Zinseszins oder ungeprüftes Bevölkerungswachstum), während a> 0 und b <0, y sinkt immer langsamer (z. B. radioaktiver Zerfall).
- Power-Funktionen :
y= a xbl o gy= l o ga + b l o gx
x = 0b > 0
y= a xb= 0
- Betrachten Sie Verhältnisse y = p / q, wobei p und q in der Praxis beide positiv sind.
Beispiele sind:
- Männer / Frauen
- Angehörige / Arbeitnehmer
- Downstream-Länge / Downvalley-Länge
Dann liegt y irgendwo zwischen 0 und unendlich, oder im letzten Fall zwischen 1 und unendlich. Wenn p = q, dann ist y = 1. Solche Definitionen führen oft zu verzerrten Daten, da es eine klare Untergrenze und keine klare Obergrenze gibt. Der Logarithmus ist jedoch nämlich
log y = log p / q = log p - log q, liegt irgendwo zwischen -infinity und infinity und p = q bedeutet log y = 0. Daher ist der Logarithmus eines solchen Verhältnisses wahrscheinlich symmetrischer verteilt.
Kubikwurzel : Die Kubikwurzel, x 1/3 . Dies ist eine ziemlich starke Transformation mit erheblichem Einfluss auf die Verteilungsform: Sie ist schwächer als der Logarithmus. Es wird auch zur Reduzierung der rechten Schräglage verwendet und hat den Vorteil, dass es auf Null und negative Werte angewendet werden kann. Beachten Sie, dass die Kubikwurzel eines Volumes die Einheiten einer Länge hat. Es wird häufig auf Niederschlagsdaten angewendet.
Die Anwendbarkeit auf negative Werte erfordert einen besonderen Hinweis. Man betrachte
(2) (2) (2) = 8 und (-2) (-2) (-2) = -8. Diese Beispiele zeigen, dass die
Kubikwurzel einer negativen Zahl ein negatives Vorzeichen und denselben
absoluten Wert wie die Kubikwurzel der entsprechenden positiven Zahl hat. Eine ähnliche Eigenschaft besitzt jede andere Wurzel, deren Potenz der
Kehrwert einer ungeraden positiven ganzen Zahl ist (Potenzen 1/3, 1/5, 1/7 usw.).
Diese Eigenschaft ist ein wenig empfindlich. Ändern Sie zum Beispiel die Potenz nur um ein kleines Drittel, und wir können das Ergebnis nicht mehr als ein Produkt aus genau drei Begriffen definieren. Die Eigenschaft ist jedoch dazu da, genutzt zu werden, wenn sie nützlich ist.
- x2
y= a + b x + c x2
Quadratische Elemente werden normalerweise nur verwendet, weil sie eine
Beziehung innerhalb des Datenbereichs nachahmen können . Außerhalb dieses Bereichs können sie
sich sehr schlecht verhalten, da sie für Extremwerte von x willkürlich große Werte annehmen, und wenn der Achsenabschnitt a nicht auf 0 beschränkt ist, können sie sich unrealistisch nahe am Ursprung verhalten.