Warum werden beim maschinellen Lernen keine Leistungs- oder Protokolltransformationen gelehrt?


24

Maschinelles Lernen (ML) verwendet stark lineare und logistische Regressionstechniken. Es stützt sich auch auf Feature - Engineering - Techniken ( feature transform, kernelusw.).

Warum wird in ML nichts über variable transformation(zB power transformation) erwähnt? (Ich höre zum Beispiel nie davon, Stamm- oder Protokolldaten für Features zu verwenden, normalerweise werden nur Polynome oder RBFs verwendet.) Warum kümmern sich ML-Experten auch nicht um Feature-Transformationen für die abhängige Variable? (Zum Beispiel höre ich nie von der Log-Transformation von y; sie transformieren nur y nicht.)

Änderungen: Vielleicht ist die Frage nicht definitiv, meine eigentliche Frage lautet: "Ist die Umwandlung von Leistung in Variablen in ML nicht wichtig?"


4
Ich würde gerne wissen, warum dies abgelehnt wurde. Das ist eigentlich eine interessante Frage.
Shadowtalker

1
Ich denke, die meisten Leute hätten vor ihrem ersten ML-Kurs einen linearen Regressionskurs genommen. Sicherlich würde der Standard-LR-Kurs ein Kapitel über diese Dinge enthalten (Transformationen). Übrigens habe ich die Frage nicht abgelehnt.
user603

Antworten:


12

Das Buch Applied Predictive Modeling von Kuhn und Johnson ist ein hoch angesehenes praktisches Buch zum maschinellen Lernen mit einem großen Abschnitt über variable Transformationen, einschließlich Box-Cox. Die Autoren behaupten, dass viele Algorithmen für maschinelles Lernen besser funktionieren, wenn die Features symmetrische und unimodale Verteilungen aufweisen. Das Transformieren der Features auf diese Weise ist ein wichtiger Bestandteil des Feature-Engineerings.


8

Nun, aus meiner Sicht interessiert mich häufig die prädiktive Verteilung der Antwortvariablen und nicht nur der bedingte Mittelwert. In diesem Fall ist es besser, eine Wahrscheinlichkeit zu verwenden, die die Zielverteilung korrekter darstellt. Zum Beispiel verwende ich gerne kernelisierte lineare Modelle, anstatt (sagen wir) die Vektorregression zu unterstützen, weil ich eine Poisson-Wahrscheinlichkeit verwenden kann, wenn ich möchte. Da viele maschinell Lernende Bayesianer sind, vermute ich, dass die Verwendung einer anderen Wahrscheinlichkeit eleganter erscheint als Transformationen (die Auswahl einer geeigneten Wahrscheinlichkeit ist im Allgemeinen der erste Schritt).


0

Hier sind meine späteren Gedanken.

Ich denke, es liegt daran, dass sich ML größtenteils mit Klassifikation befasst und Klassifikation keine Notwendigkeit für die Transformation von y (y ist kategorisch) darstellt. ML befasst sich normalerweise mit großen unabhängigen Variablen (z. B. Tausenden in NLP), und die logistische Regression erfordert keine Normalität. Ich denke, deshalb verwenden sie aus Gründen der Geschwindigkeit keine Box-Cox-Leistungstransformation. (Anmerkung: Ich bin nicht vertraut mit Machttransformation.)

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.