Als «dimensionality-reduction» getaggte Fragen

Bezieht sich auf Techniken zum Reduzieren einer großen Anzahl von Variablen oder Dimensionen, die von Daten überspannt werden, auf eine kleinere Anzahl von Dimensionen, während so viele Informationen über die Daten wie möglich erhalten bleiben. Zu den wichtigsten Methoden gehören PCA, MDS, Isomap usw. Die beiden Hauptunterklassen von Techniken: Merkmalsextraktion und Merkmalsauswahl.

3
Beziehung zwischen SVD und PCA. Wie verwende ich SVD, um PCA durchzuführen?
Die Hauptkomponentenanalyse (PCA) wird üblicherweise durch eine Eigenzerlegung der Kovarianzmatrix erklärt. Sie kann aber auch über die Singular Value Decomposition (SVD) der Datenmatrix . Wie funktioniert es? Welche Verbindung besteht zwischen diesen beiden Ansätzen? Wie ist die Beziehung zwischen SVD und PCA?XX\mathbf X Oder mit anderen Worten, wie kann die …

1
Wie kann man PCA umkehren und Originalvariablen aus mehreren Hauptkomponenten rekonstruieren?
Die Hauptkomponentenanalyse (PCA) kann zur Dimensionsreduzierung verwendet werden. Wie kann man nach einer solchen Dimensionsreduktion die ursprünglichen Variablen / Merkmale aus einer kleinen Anzahl von Hauptkomponenten näherungsweise rekonstruieren? Wie kann man alternativ mehrere Hauptkomponenten aus den Daten entfernen oder verwerfen? Mit anderen Worten, wie PCA umkehren? Angesichts der Tatsache, dass …


4
PCA und Varianzanteil erklärt
Was bedeutet im Allgemeinen, dass der Bruchteil der Varianz in einer Analyse wie PCA durch die erste Hauptkomponente erklärt wird? Kann jemand dies intuitiv erklären, aber auch eine genaue mathematische Definition dessen geben, was "erklärte Varianz" im Sinne der Hauptkomponentenanalyse (PCA) bedeutet?xxx Für eine einfache lineare Regression wird das R-Quadrat …

2
Was ist der Unterschied zwischen ZCA-Whitening und PCA-Whitening?
Ich bin verwirrt über das ZCA-Weißmachen und das normale Weißmachen (das durch Teilen der Hauptkomponenten durch die Quadratwurzeln der PCA-Eigenwerte erhalten wird). Soweit ich weiss, wo U PCA Eigenvektoren sind.xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},UU\mathbf U Was sind die Verwendungen von ZCA-Bleaching? Was sind die Unterschiede zwischen normalem Bleaching …

6
Prinzipieller Weg, kategoriale Variablen mit vielen Ebenen zu kollabieren?
Welche Techniken stehen zur Verfügung, um viele Kategorien zu einigen zu reduzieren (oder zu bündeln), um sie als Eingabe (Prädiktor) in einem statistischen Modell zu verwenden? Stellen Sie sich eine Variable wie den Hauptfachstudenten vor (Fachbereich, den ein Student im Grundstudium auswählt). Es ist ungeordnet und kategorisch, kann aber möglicherweise …

3
Würde PCA für boolesche (binäre) Datentypen funktionieren?
Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und …

2
Wann ist t-SNE irreführend?
Zitat eines Autors: Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet. Es klingt ziemlich gut, aber das ist der Autor. Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb): Was haben Sie von diesem Wettbewerb …

3
Warum wird t-SNE nicht als Dimensionsreduktionstechnik für Clustering oder Klassifizierung verwendet?
In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet, ergibt keine eindeutigen Cluster, weshalb das Modell …

1
Was ist der intuitive Grund für das Ausführen von Rotationen in Factor Analysis / PCA und wie wählt man eine geeignete Rotation aus?
Meine Fragen Was ist der intuitive Grund für die Rotation von Faktoren in der Faktorenanalyse (oder von Komponenten in der PCA)? Mein Verständnis ist, dass es offensichtlich schwierig ist, die Komponenten zu unterscheiden, wenn Variablen in den obersten Komponenten (oder Faktoren) fast gleich geladen sind. In diesem Fall könnte man …

1
Wie würde PCA bei einer k-means Clustering-Analyse helfen?
Hintergrund : Ich möchte die Wohngebiete einer Stadt anhand ihrer sozioökonomischen Merkmale in Gruppen einteilen, z. B. Dichte der Wohneinheiten, Bevölkerungsdichte, Grünfläche, Wohnungspreis, Anzahl der Schulen / Gesundheitszentren / Kindertagesstätten usw. Ich möchte verstehen, in wie viele verschiedene Gruppen die Wohngebiete unterteilt werden können und was ihre einzigartigen Merkmale sind. …

1
Dimensionsreduktion (SVD oder PCA) auf einer großen, dünn besetzten Matrix
/ edit: Weitere Folgemaßnahmen können jetzt mit irlba :: prcomp_irlba durchgeführt werden / edit: verfolge meinen eigenen Beitrag. irlbaVerfügt nun über die Argumente "center" und "scale", mit denen Sie Hauptkomponenten berechnen können, z. pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Ich habe eine große, spärliche Anzahl Matrixvon Funktionen, …

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
So reduzieren Sie die Dimensionalität in R
Ich habe eine Matrix, in der a (i, j) angibt, wie oft ich Seite j angesehen habe. Es gibt 27.000 Einzelpersonen und 95.000 Seiten. Ich möchte eine Handvoll "Dimensionen" oder "Aspekte" im Bereich von Seiten haben, die Gruppen von Seiten entsprechen, die oft zusammen betrachtet werden. Mein letztendliches Ziel ist …

2
Warum funktioniert Pythons Scikit-Learn-LDA nicht richtig und wie berechnet es LDA über SVD?
Ich habe die lineare Diskriminanzanalyse (LDA) aus der scikit-learnmaschinellen Lernbibliothek (Python) zur Dimensionsreduktion verwendet und war ein wenig neugierig auf die Ergebnisse. Ich frage mich jetzt, was die LDA scikit-learntut, damit die Ergebnisse anders aussehen als beispielsweise ein manueller Ansatz oder eine in R durchgeführte LDA. Es wäre großartig, wenn …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.