Was ist der Vorteil der Reduzierung der Dimensionalität von Prädiktoren zum Zwecke der Regression?

Was sind die Anwendungen oder Vorteile der Dimensionsreduktion Regression (DRR) oder beaufsichtigten Dimensionsreduktion (SDR) Techniken gegenüber herkömmlichen Regressionstechniken (ohne Dimensionsreduktion)? Diese Klasse von Techniken findet eine niedrigdimensionale Darstellung des Merkmalssatzes für das Regressionsproblem. Beispiele für solche Techniken umfassen in Scheiben geschnittene inverse Regression, Haupt-Hessische Richtungen, Geschnittene durchschnittliche Varianzschätzung, Kernel-Schnitt-Inverse-Regression, Hauptkomponenten-Regression usw.

Wenn in Bezug auf die kreuzvalidierte RMSE ein Algorithmus bei einer Regressionsaufgabe ohne Dimensionsreduktion eine bessere Leistung erbringt, was ist dann die tatsächliche Verwendung der Dimensionsreduktion für die Regression? Ich verstehe den Sinn dieser Techniken nicht.
Werden diese Techniken zufällig verwendet, um die räumliche und zeitliche Komplexität für die Regression zu verringern? Wenn dies der Hauptvorteil ist, wären einige Ressourcen zur Reduzierung der Komplexität für hochdimensionale Datensätze hilfreich, wenn diese Techniken verwendet werden. Ich diskutiere dies mit der Tatsache, dass das Ausführen einer DRR- oder SDR-Technik selbst einige Zeit und Raum erfordert. Ist diese SDR / DRR + -Regression bei einem Low-Dim-Datensatz schneller als nur die Regression bei einem High-Dim-Datensatz?
Wurde diese Einstellung nur aus abstraktem Interesse untersucht und hat sie keine gute praktische Anwendung?

Als Nebengedanke: Manchmal gibt es Annahmen, dass die gemeinsame Verteilung der Merkmale und der Antwort auf einer Mannigfaltigkeit liegt. In diesem Zusammenhang ist es sinnvoll, aus der beobachteten Stichprobe die Mannigfaltigkeit zu lernen, um ein Regressionsproblem zu lösen. $X$ $Y$

— Leichenwagen
quelle

Sie sprechen über vielfältiges Lernen, daher könnte der folgende Blogpost hilfreich sein: normaldeviate.wordpress.com/2012/09/08/hunting-for-manifolds

— kjetil b halvorsen

Antworten:

Gemäß der Mannigfaltigkeitshypothese wird angenommen, dass die Daten auf einer niedrigdimensionalen Mannigfaltigkeit liegen, was impliziert, dass der Rest Rauschen ist. Wenn Sie also Ihre Dimensionsreduktion korrekt durchführen, sollten Sie die Leistung verbessern, indem Sie das Signal und nicht das Rauschen modellieren. Es geht nicht nur um Raum und Komplexität.

— Emre
quelle

Aber ich sehe keine Techniken wie SIR, die nach einer Verringerung der Dimensionalität auf einer robusten Basis besser abschneiden. Korrigieren Sie mich, wenn ich falsch liege oder wenn Sie eine SDR / DDR-Technik kennen, die dieses Signal besser finden kann - in einer Regressionseinstellung, lassen Sie mich wissen, um welche Technik (Name) es sich handelt.

— Leichenwagen

Natürlich hängt es vom Regressionsalgorithmus und der intrinsischen Dimensionalität der Daten ab. Ich kann nicht speziell für SIR sprechen, aber hier ist ein Artikel, der verschiedene Regressionsalgorithmen für den MNIST-Datensatz vergleicht, der niedrigdimensional ist. Vielleicht könnten Sie einige problematische Daten teilen, damit die Leute einen Sprung drauf machen können.

— Emre

Was ist "die vielfältige Hypothese"?

— Amöbe sagt Reinstate Monica

Die Hypothese, dass hochdimensionale Daten dazu neigen, in der Nähe einer niedrigdimensionalen Mannigfaltigkeit zu liegen .

— Emre

Ich frage mich, ob dieses Zeug neuronalen Netzen und nichtlinearer mehrdimensionaler Skalierung

— insofern

Der Zweck der Dimensionsreduktion bei der Regression ist die Regularisierung.

Die meisten der von Ihnen aufgelisteten Techniken sind nicht sehr bekannt. Ich habe von keinem von ihnen außer der Hauptkomponentenregression (PCR) gehört. Ich werde also über PCR antworten, erwarte aber, dass dies auch für die anderen Techniken gilt.

Die beiden Schlüsselwörter hier sind Überanpassung und Regularisierung . Für eine lange Behandlung und Diskussion verweise ich Sie auf die Elemente des statistischen Lernens , aber sehr kurz, was passiert, wenn Sie viele Prädiktoren ( ) und nicht genügend Stichproben ( ) haben, ist, dass die Standardregression die Daten überpasst und Sie werden Konstruieren Sie ein Modell, das auf dem Trainingssatz eine gute Leistung zu haben scheint, auf jedem Testsatz jedoch eine sehr schlechte Leistung aufweist. $p$ $n$

$p>n$ $y$ $100\%$

Um mit Überanpassung fertig zu werden, muss eine Regularisierung verwendet werden , und es gibt viele verschiedene Regularisierungsstrategien. In einigen Ansätzen versucht man, die Anzahl der Prädiktoren drastisch zu reduzieren und das Problem auf das zu reduzieren $p\ll n$

$p$

Um eine Leistungssteigerung im Vergleich zur Standardregression zu erzielen, benötigen Sie einen Datensatz mit vielen Prädiktoren und nicht so vielen Stichproben, und Sie müssen auf jeden Fall eine Kreuzvalidierung oder einen unabhängigen Testsatz verwenden. Wenn Sie keine Leistungssteigerung feststellen konnten, hatte Ihr Dataset möglicherweise nicht genügend Abmessungen.

Verwandte Themen mit guten Antworten:

— Amöbe sagt Reinstate Monica
quelle

Angesichts seiner Veröffentlichungen kann man davon ausgehen, dass er das weiß.

— Emre

Danke, @Emre, ich hatte keine Ahnung, wer der OP war. Ich habe die Frage vielleicht falsch verstanden, aber nachdem ich sie jetzt noch einmal gelesen habe, sehe ich nicht, wie ich sie anders interpretieren kann. Wenn man fragt, was der praktische Vorteil der PCR ist, lautet die Antwort Regularisierung; Die PCR ist tatsächlich eng mit der Ridge-Regression verbunden, die eine der Standardmethoden zur Regularisierung ist.

— Amöbe sagt Reinstate Monica

p > n

$p > n$

@ssdecontrol: Ich stimme zu. Ich denke, der Konsens ist, dass PCR so gut wie nicht wettbewerbsfähig ist und es fast immer bessere Ansätze gibt. Dies ist auch das, was ich in meiner Antwort geschrieben habe (nicht wahr?), Aber die Frage betraf speziell die Verringerung der Dimensionalität von Prädiktoren und deren Zweck. Meine Antwort ist, dass der Zweck die Regularisierung ist.

— Amöbe sagt Reinstate Monica

Verstanden. Aber ich denke, wir können uns einig sein, dass die Frage speziell geladen wird, um ihre Nützlichkeit in Frage zu stellen, da sie trotz ihrer intuitiven Anziehungskraft nicht der beste Weg zur Regularisierung ist

— Shadowtalker