Feature-Transformation für Eingabedaten


22

Ich habe über die Lösung für diese OTTO Kaggle-Herausforderung gelesen und die erste Lösung scheint mehrere Transformationen für die Eingabedaten X zu verwenden, z. B. Log (X + 1), sqrt (X + 3/8) usw. Gibt es eine allgemeine Richtlinie, wann welche Art von Transformationen auf verschiedene Klassifikatoren anzuwenden ist?

Ich verstehe die Konzepte der Mean-Var- und Min-Max-Normalisierung. Ich vermute jedoch, dass für die obigen Transformationen Log und Sqrt verwendet werden, um den dynamischen Bereich der Daten zu komprimieren. Und die Verschiebung der x-Achse dient nur dazu, die Daten neu zu zentrieren. Der Autor wählt jedoch verschiedene Normalisierungsmethoden für dieselbe Eingabe X aus, wenn er in verschiedene Klassifizierer eingibt. Irgendwelche Ideen?


1
Keine Ahnung, was diese Art von Formeln möglicherweise suggerieren könnte, aber vielleicht möchten Sie sich Box-Cox-Transformationen ansehen, die Exponenten für Variablen vorschlagen.
anymous.asker

Antworten:


19

Wir lieben die normale Form

In den meisten Fällen versuchen wir, sie wie normal zu verhalten. Es ist keine Sichtweise der Klassifikatoren, sondern eine Sicht der Feature-Extraktion!

Welche Transformation ?

Das Hauptkriterium bei der Auswahl einer Transformation ist: Was funktioniert mit den Daten? Wie die obigen Beispiele zeigen, ist es wichtig, auch zwei Fragen zu berücksichtigen.

Was macht physikalisch (biologisch, ökonomisch, was auch immer) Sinn, zum Beispiel in Bezug auf die Begrenzung des Verhaltens, wenn Werte sehr klein oder sehr groß werden? Diese Frage führt oft zur Verwendung von Logarithmen.

Können wir Maße und Einheiten einfach und bequem halten? Nach Möglichkeit bevorzugen wir einfach zu überlegende Maßstäbe.

Die Kubikwurzel eines Volumens und die Quadratwurzel einer Fläche haben beide die Längenmaße, so weit es die Dinge nicht kompliziert, können solche Transformationen sie vereinfachen. Reziprozale haben normalerweise einfache Einheiten, wie bereits erwähnt. Oft sind jedoch etwas komplizierte Einheiten ein Opfer, das gemacht werden muss.

Wann was verwenden ?

Die nützlichsten Transformationen in der einführenden Datenanalyse sind der Kehrwert, der Logarithmus, die Kubikwurzel, die Quadratwurzel und das Quadrat. Im Folgenden wird angenommen, dass Transformationen, auch wenn sie nicht hervorgehoben werden, nur in Bereichen verwendet werden, in denen sie (endliche) reelle Zahlen als Ergebnisse liefern.

  • Wechselseitige : Die reziproke, x 1 / x, mit seinem den negativen reziproken Geschwister, x bis -1 / x ist eine sehr starke Transformation mit einem drastischen Effekt auf Verteilungsform. Es kann nicht auf Nullwerte angewendet werden. Obwohl es auf negative Werte angewendet werden kann, ist es nur sinnvoll, wenn alle Werte positiv sind. Der Kehrwert eines Verhältnisses kann oft so einfach interpretiert werden wie das Verhältnis selbst: Beispiel:
    • Bevölkerungsdichte (Menschen pro Flächeneinheit) wird Fläche pro Person
    • Personen pro Arzt werden Ärzte pro Person
    • Erosionsraten werden zu Zeit, um eine Einheitstiefe zu erodieren

(In der Praxis möchten wir die Ergebnisse der Kehrwertbildung möglicherweise mit einer Konstanten wie 1000 oder 10000 multiplizieren oder dividieren, um Zahlen zu erhalten, die einfach zu verwalten sind, die sich jedoch selbst nicht auf die Schiefe oder Linearität auswirken.)

Der Kehrwert kehrt die Reihenfolge zwischen Werten desselben Vorzeichens um: Größter wird kleinster usw. Der negative Kehrwert behält die Reihenfolge zwischen Werten desselben Vorzeichens bei.


  • Logarithmus : Der Logarithmus x log 10 x oder x log ex oder ln x oder x log 2 x ist eine starke Transformation, die einen großen Einfluss auf die Verteilungsform hat. Es wird üblicherweise zur Reduzierung der rechten Schräglage verwendet und ist häufig für Messgrößen geeignet. Es kann nicht auf Null oder negative Werte angewendet werden. Eine Einheit auf einer logarithmischen Skala bedeutet eine Multiplikation mit der Basis der verwendeten Logarithmen. Exponentielles Wachstum oder Rückgang.

    • y=aexp(bx)

lny=lna+bxx=0y=aexp(0)=a so dass a der Betrag oder die Anzahl ist, wenn x = 0. Wenn a und b> 0, wächst y immer schneller (z. B. Zinseszins oder ungeprüftes Bevölkerungswachstum), während a> 0 und b <0, y sinkt immer langsamer (z. B. radioaktiver Zerfall).


  • Power-Funktionen :
  • y=axblogy=loga+blogx
    x=0b>0

  • y=axb=0

    • Betrachten Sie Verhältnisse y = p / q, wobei p und q in der Praxis beide positiv sind.
  • Beispiele sind:

    • Männer / Frauen
    • Angehörige / Arbeitnehmer
    • Downstream-Länge / Downvalley-Länge
  • Dann liegt y irgendwo zwischen 0 und unendlich, oder im letzten Fall zwischen 1 und unendlich. Wenn p = q, dann ist y = 1. Solche Definitionen führen oft zu verzerrten Daten, da es eine klare Untergrenze und keine klare Obergrenze gibt. Der Logarithmus ist jedoch nämlich

  • log y = log p / q = log p - log q, liegt irgendwo zwischen -infinity und infinity und p = q bedeutet log y = 0. Daher ist der Logarithmus eines solchen Verhältnisses wahrscheinlich symmetrischer verteilt.


  • Kubikwurzel : Die Kubikwurzel, x 1/3 . Dies ist eine ziemlich starke Transformation mit erheblichem Einfluss auf die Verteilungsform: Sie ist schwächer als der Logarithmus. Es wird auch zur Reduzierung der rechten Schräglage verwendet und hat den Vorteil, dass es auf Null und negative Werte angewendet werden kann. Beachten Sie, dass die Kubikwurzel eines Volumes die Einheiten einer Länge hat. Es wird häufig auf Niederschlagsdaten angewendet.

    • Die Anwendbarkeit auf negative Werte erfordert einen besonderen Hinweis. Man betrachte
      (2) (2) (2) = 8 und (-2) (-2) (-2) = -8. Diese Beispiele zeigen, dass die
      Kubikwurzel einer negativen Zahl ein negatives Vorzeichen und denselben
      absoluten Wert wie die Kubikwurzel der entsprechenden positiven Zahl hat. Eine ähnliche Eigenschaft besitzt jede andere Wurzel, deren Potenz der
      Kehrwert einer ungeraden positiven ganzen Zahl ist (Potenzen 1/3, 1/5, 1/7 usw.).

    • Diese Eigenschaft ist ein wenig empfindlich. Ändern Sie zum Beispiel die Potenz nur um ein kleines Drittel, und wir können das Ergebnis nicht mehr als ein Produkt aus genau drei Begriffen definieren. Die Eigenschaft ist jedoch dazu da, genutzt zu werden, wenn sie nützlich ist.


  • x(1/2)

  • x2

    y=a+bx+cx2



    Quadratische Elemente werden normalerweise nur verwendet, weil sie eine
    Beziehung innerhalb des Datenbereichs nachahmen können . Außerhalb dieses Bereichs können sie
    sich sehr schlecht verhalten, da sie für Extremwerte von x willkürlich große Werte annehmen, und wenn der Achsenabschnitt a nicht auf 0 beschränkt ist, können sie sich unrealistisch nahe am Ursprung verhalten.
    • (x)2x2


danke für die post. wirklich hilfreich. Können Sie es vielleicht mit einigen Beispielen und Abbildungen ergänzen, in denen dargestellt wird, wie die ursprünglichen Daten in trennbare Daten umgewandelt werden?
Mvkt

1
@svk: Ich habe nur so formatiert, dass es verständlich ist. Ich denke, hadi war die Person, die die Antwort geschrieben hat. Wenn meine Vermutung richtig ist, könnte er aus einem Buch kopiert haben. Mal sehen, ob er etwas erwidert / vorschlägt.
Sonst

2
Wie @ Toros91 sagte: Es ist die Kombination verschiedener Quellen. Ich empfehle dringend, zu sehen, wie man einen Data Science-Wettbewerb gewinnt: Lernen Sie von Top-Kagglern und auch statistischen Dokumenten
hadi gharibi

Alrite. Obwohl einer von Ihnen bitte einen Beispielcode in Python oder Matlab posten kann, wie man x-Achsen in Quadratwurzel oder Kubikwurzel umwandelt. matlab verfügt über das Protokolldiagramm für die Protokollskala. Für andere Maßstäbe ist es jedoch hilfreich, eine
Zeichnung

1

Diese spezifischen können rein heuristisch sein. Bei Bildern ist dies jedoch ein Standard: Ändern Sie RGB in BGR und subtrahieren Sie den Mittelwert von jedem Pixel. Dies wird in allen Wettbewerben / Datensätzen wie Imagenet, Pascal VOC, MS COCO verwendet. Der Grund ist, dass das Netzwerk mit einem standardisierten Datensatz dargestellt wird, da alle Bilder sehr unterschiedlich sein können.


0

Gleich hier - keine Ahnung, habe das noch nie gesehen. Ich denke, sie haben verschiedene Transformationen versucht und die ausgewählt, die am besten funktioniert hat. Da in dem Bericht gesagt wird, dass einige andere Transformationen auch in Ordnung wären.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.