Statistiken und Big Data dimensionality-reduction

5

Wie können Hauptkomponenten die Vorhersagekraft einer abhängigen Variablen beibehalten (oder sogar zu besseren Vorhersagen führen)?

Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?Y.∼ XY.∼XY \sim XkkkXXXY.Y.Y Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den höchsten Eigenwerten sind, die höchsten Hauptkomponenten sind mit maximalen Abweichungen. …

25 regression classification pca dimensionality-reduction regularization

2

Wie kann man "nichtlinear" wie "nichtlineare Dimensionsreduktion" verstehen?

Ich versuche die Unterschiede zwischen den linearen Dimensionalitätsreduktionsmethoden (z. B. PCA) und den nichtlinearen Methoden (z. B. Isomap) zu verstehen. Ich kann nicht ganz verstehen, was die (Nicht-) Linearität in diesem Zusammenhang impliziert. Ich lese aus Wikipedia , dass Im Vergleich dazu sind die resultierenden Werte nicht so gut organisiert, …

24 pca terminology dimensionality-reduction pattern-recognition manifold-learning

3

Sollte die Reduzierung der Dimensionalität für die Visualisierung als „geschlossenes“ Problem angesehen werden, das von t-SNE gelöst wurde?

Ich habe viel über den sne- Algorithmus zur Dimensionsreduktion gelesen . Ich bin sehr beeindruckt von der Leistung bei "klassischen" Datensätzen wie MNIST, bei denen eine klare Trennung der Ziffern erzielt wird ( siehe Originalartikel ):ttt Ich habe es auch verwendet, um die Funktionen eines neuronalen Netzwerks zu visualisieren, das …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

2

Worum geht es bei der „Regression mit reduziertem Rang“?

Ich habe die Elemente des statistischen Lernens gelesen und konnte nicht verstehen, worum es in Abschnitt 3.7 "Schrumpfung und Auswahl mehrerer Ergebnisse" geht. Es geht um RRR (Reduced-Rank-Regression), und ich kann nur verstehen, dass es sich bei der Prämisse um ein verallgemeinertes multivariates lineares Modell handelt, bei dem die Koeffizienten …

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

1

Warum gibt es nur

Wenn in PCA die Anzahl der Dimensionen größer als (oder sogar gleich) die Anzahl der Abtastwerte , warum haben Sie dann höchstens Nicht-Null-Eigenvektoren? Mit anderen Worten, der Rang der Kovarianzmatrix unter den Dimensionen ist .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Beispiel: Ihre Stichproben sind vektorisierte Bilder mit der Dimension , aber Sie haben nur …

22 pca dimensionality-reduction eigenvalues

1

t-SNE gegen MDS

Ich habe kürzlich einige Fragen zu t-SNE ( t-Distributed Stochastic Neighbor Embedding ) gelesen und auch einige Fragen zu MDS ( Multidimensional Scaling ) besucht. Sie werden oft analog verwendet, daher schien es eine gute Idee zu sein, diese Frage zu stellen, da es hier viele Fragen zu beiden getrennt …

21 data-visualization dimensionality-reduction multidimensional-scaling tsne

3

PCA, wenn die Dimensionalität größer als die Anzahl der Proben ist

Ich bin auf ein Szenario gestoßen, in dem ich 10 Signale / Person für 10 Personen (also 100 Samples) mit 14000 Datenpunkten (Dimensionen) habe, die ich an einen Klassifikator übergeben muss. Ich möchte die Dimensionalität dieser Daten reduzieren, und PCA scheint der richtige Weg zu sein. Ich konnte jedoch nur …

21 pca dimensionality-reduction svd

4

Warum sind gemischte Daten ein Problem für euklidische Clustering-Algorithmen?

Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

4

Funktionale Hauptkomponentenanalyse (FPCA): Worum geht es?

Über die Funktionale Hauptkomponentenanalyse (FPCA) bin ich gestolpert und habe sie nie verstanden. Worum geht es? Siehe "Eine Übersicht über die Analyse der funktionalen Hauptkomponenten" von Shang, 2011 , und ich zitiere: PCA stößt bei der Analyse von Funktionsdaten aufgrund des "Fluches der Dimensionalität" auf ernsthafte Schwierigkeiten (Bellman 1961). Der …

21 time-series pca dimensionality-reduction

1

Wie LDA, eine Klassifikationstechnik, auch als Dimensionsreduktionstechnik wie PCA dient

In diesem Artikel verknüpft der Autor die lineare Diskriminanzanalyse (LDA) mit der Hauptkomponentenanalyse (PCA). Mit meinen begrenzten Kenntnissen kann ich nicht nachvollziehen, wie LDA PCA ähneln kann. Ich habe immer gedacht, dass LDA eine Art Klassifizierungsalgorithmus ist, ähnlich der logistischen Regression. Ich würde mich über eine Hilfe freuen, um zu …

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

5

Gibt es Versionen von t-SNE für das Streaming von Daten?

Mein Verständnis von t-SNE und der Barnes-Hut-Näherung ist, dass alle Datenpunkte erforderlich sind, damit alle Kraftwechselwirkungen gleichzeitig berechnet werden können und jeder Punkt in der 2d-Karte (oder der Karte mit der niedrigeren Dimension) angepasst werden kann. Gibt es Versionen von t-sne, die effizient mit Streaming-Daten umgehen können? Wenn also meine …

19 data-visualization dimensionality-reduction multidimensional-scaling tsne

1

Sollten die Daten vor der Anwendung von t-SNE zentriert und skaliert werden?

Einige Funktionen meiner Daten haben große Werte, während andere Funktionen viel kleinere Werte haben. Müssen die Daten vor dem Anwenden von t-SNE zentriert und skaliert werden, um eine Verzerrung in Richtung der größeren Werte zu vermeiden? Ich verwende die sklearn.manifold.TSNE-Implementierung von Python mit der standardmäßigen euklidischen Distanzmetrik.

18 normalization dimensionality-reduction high-dimensional tsne

2

Intuitive Erklärung der Funktionsweise von UMAP im Vergleich zu t-SNE

Ich habe einen Doktortitel in Molekularbiologie. Meine Studien haben vor kurzem begonnen, hochdimensionale Datenanalysen zu beinhalten. Ich hatte die Idee, wie t-SNE funktioniert (dank eines StatQuest-Videos auf YouTube ), kann mich aber nicht um UMAP kümmern (ich habe mir den Vortrag des UMAP-Erstellers online angehört, fand ihn aber nicht leicht …

18 dimensionality-reduction intuition tsne

4

Gibt es in realen Daten wirklich einen „Fluch der Dimensionalität“?

Ich verstehe, was "Fluch der Dimensionalität" ist, und ich habe einige hochdimensionale Optimierungsprobleme gelöst und kenne die Herausforderung der exponentiellen Möglichkeiten. Ich bezweifle jedoch, dass der "Fluch der Dimensionalität" in den meisten Daten der realen Welt existiert (also lassen Sie uns Bilder oder Videos für einen Moment beiseite, ich denke …

17 clustering dimensionality-reduction high-dimensional

4

Variablen für SVD / PCA "normalisieren"

Angenommen, wir haben NNN messbare Variablen , führen eine Anzahl von Messungen durch und möchten dann eine Singulärwertzerlegung für die Ergebnisse durchführen, um die Achsen mit der höchsten Varianz für die Punkte zu finden im dimensionalen Raum. ( Hinweis: davon aus, dass die Mittel der bereits abgezogen worden, so ⟨ …

17 pca data-transformation normalization dimensionality-reduction svd

Als «dimensionality-reduction» getaggte Fragen