Ich stimme den wichtigsten Punkten von @Upper_Case zu. Ich möchte eine Perspektive darlegen, die die Seite "maschinelles Lernen" der Frage hervorhebt.
Bei einer Klassifizierungsaufgabe mit kNN, logistischer Regression, Kernel-SVM oder nichtlinearen neuronalen Netzen besteht der Hauptnachteil, über den wir uns Sorgen machen, in der Verringerung der Modellleistung , z. B. der Verringerung des AUC-Werts für einen Validierungssatz.
Andere Nachteile der Schiefe werden häufig untersucht, wenn der Schaden der Schiefe an der Qualität des Ergebnisses schwer einzuschätzen ist . Bei einem Klassifizierungsproblem können wir das Modell jedoch einmal mit dem Original (schief) und einmal mit dem transformierten Merkmal trainieren und validieren , und dann
- Wenn die Leistung abnimmt, transformieren wir nicht,
- Wenn sich die Leistung verbessert, transformieren wir.
Mit anderen Worten, der Schaden der Schiefe kann leicht und objektiv beurteilt werden. Daher haben diese Rechtfertigungen keinen Einfluss auf unsere Entscheidung , sondern nur auf die Leistung.
Wenn wir uns die Rechtfertigungen für die Verwendung der Protokolltransformation genauer ansehen, gelten sie, wenn einige Annahmen über die endgültigen Funktionen getroffen werden, mit denen ein Modell oder ein Test direkt arbeitet. Ein letztes Merkmal ist eine Funktion des Rohmerkmals; Diese Funktion kann Identität sein. Zum Beispiel kann ein Modell (oder Test) annehmen, dass ein endgültiges Merkmal normal oder zumindest symmetrisch um den Mittelwert sein sollte oder linear additiv sein sollte usw. Dann haben wir mit dem Wissen (oder einer Spekulation), dass ein Rohwert Das Feature ist nach links geneigt und führt möglicherweise eine Protokolltransformation durch, um das endgültige Feature an der auferlegten Annahme auszurichten.
Eine wichtige Schwierigkeit dabei ist, dass wir die Verteilung eines Rohmerkmals nicht ändern und nicht ändern können. Wir erstellen lediglich ein endgültiges Merkmal (als Funktion des Rohmerkmals), dessen andere Verteilung besser auf die auferlegten Annahmen abgestimmt ist.
Für eine Klassifizierungsaufgabe unter Verwendung von kNN, logistischer Regression, Kernel-SVM oder nichtlinearen neuronalen Netzen gibt es keine Normalität oder symmetrische Annahme für die Verteilung der endgültigen Merkmale, daher gibt es in dieser Hinsicht keine Kraft aus diesen Modellen. Obwohl wir im logistischen Regressionsmodell einen Schatten der Annahme einer "linearen Addition" verfolgen können, dh
und in neuronalen Netzen für die gewichtete Summe von Merkmalen in der ersten Schicht, dhP(y=1|x)=11+e−(w1x1+..+wdxd)
yi=f(Wi,.x+b)=f(Wi,1x1+Wi,2x2+...+b)
Ich sage "ein Schatten", weil die Zielvariable nicht direkt die lineare Addition der endgültigen Merkmale ist, sondern eine oder mehrere nichtlineare Transformationen durchläuft, die diese Modelle gegenüber der Verletzung dieser Annahme robuster machen könnten. Andererseits existiert die Annahme der linearen Addition in kNN oder kernelSVM nicht, da sie eher mit Stichproben-Stichproben-Abständen als mit Merkmalswechselwirkungen arbeiten.
Aber auch diese Rechtfertigungen stehen im Vergleich zum Ergebnis der Modellbewertung an zweiter Stelle, wenn die Leistung leidet, transformieren wir nicht.