Hat jemand Erfahrung mit Ansätzen zur Auswahl der Anzahl der Hauptkomponenten mit geringer Dichte, die in ein Regressionsmodell aufgenommen werden sollen?
Hat jemand Erfahrung mit Ansätzen zur Auswahl der Anzahl der Hauptkomponenten mit geringer Dichte, die in ein Regressionsmodell aufgenommen werden sollen?
Antworten:
Obwohl ich keine direkten Einblicke in Ihre Frage habe, bin ich auf einige Forschungsarbeiten gestoßen , die für Sie von Interesse sein könnten. Das heißt natürlich, wenn ich richtig verstehe, dass Sie über spärliche PCA , Regression der Hauptkomponenten und verwandte Themen sprechen . In diesem Fall sind hier die Papiere:
Die Kreuzvalidierungsergebnisse wurden auch verwendet, um die optimale Anzahl von Dimensionen für den LSI-Raum zu bestimmen. Zu wenige Dimensionen nutzten die Vorhersagekraft der Daten nicht aus. während zu viele Abmessungen zu einer Überanpassung führten. Fig. 4 zeigt die Verteilung der durchschnittlichen Fehler für Modelle mit unterschiedlicher Anzahl von LSI-Dimensionen. Die Modelle mit vierdimensionalen LSI-Räumen erzeugten sowohl die geringste durchschnittliche Anzahl von Fehlern als auch die geringste mittlere Anzahl von Fehlern. Daher wurde das endgültige Modell unter Verwendung eines vierdimensionalen LSI-Raums erstellt.
Ich kann eine Kopie posten, wenn Sie kein ieee-Mitglied sind.
Dies ist aus einem Artikel, den ich in der Grundschule geschrieben habe. Ich hatte ein Problem, bei dem ich entscheiden musste, wie viele Dimensionen (Latent Semantic Indexing ähnelt PCA) in meinem logistischen Regressionsmodell verwendet werden sollen. Ich habe eine Metrik ausgewählt (dh die Fehlerrate bei Verwendung einer Markierungswahrscheinlichkeit von 0,5) und die Verteilung für diese Fehlerrate für verschiedene Modelle untersucht, die auf verschiedenen Dimensionen trainiert wurden. Ich habe dann das Modell mit der niedrigsten Fehlerrate ausgewählt. Sie können auch andere Metriken wie die Fläche unter der ROC-Kurve verwenden.
Sie können auch eine schrittweise Regression verwenden, um die Anzahl der Dimensionen für Sie auszuwählen. Welche Art von Regression führen Sie speziell durch?
Was meinst du übrigens mit spärlich?