Als «dimensionality-reduction» getaggte Fragen

Bezieht sich auf Techniken zum Reduzieren einer großen Anzahl von Variablen oder Dimensionen, die von Daten überspannt werden, auf eine kleinere Anzahl von Dimensionen, während so viele Informationen über die Daten wie möglich erhalten bleiben. Zu den wichtigsten Methoden gehören PCA, MDS, Isomap usw. Die beiden Hauptunterklassen von Techniken: Merkmalsextraktion und Merkmalsauswahl.

2
Wann kombinieren wir Dimensionsreduktion mit Clustering?
Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis) angewendet, um die U, S, Vt-Matrizen zu erhalten, eine geeignete Schwelle unter Verwendung des Geröllplots ausgewählt und Clusterbildung …

1
Was ist der Zusammenhang zwischen partiellen kleinsten Quadraten, reduzierter Rangregression und Hauptkomponentenregression?
Sind reduzierte Rangregression und Hauptkomponentenregression nur Sonderfälle von partiellen kleinsten Quadraten? In diesem Lernprogramm (Seite 6, "Objektivvergleich") wird angegeben, dass bei Teilquadraten ohne X- oder Y-Projektion (dh "nicht partiell") die Rang- oder Hauptkomponentenregression entsprechend verringert wird. Eine ähnliche Erklärung finden Sie auf dieser SAS-Dokumentationsseite in den Abschnitten "Reduzierte Rangregression" und …

2
Methoden zum Zusammenführen / Reduzieren von Kategorien in Ordnungs- oder Nominaldaten?
Ich habe Mühe, eine Methode zu finden, um die Anzahl der Kategorien in nominalen oder ordinalen Daten zu reduzieren. Angenommen, ich möchte ein Regressionsmodell für ein Dataset erstellen, das eine Reihe von nominalen und ordinalen Faktoren enthält. Während ich mit diesem Schritt keine Probleme habe, stoße ich häufig auf Situationen, …

4
Welche Variablen erklären welche PCA-Komponenten und umgekehrt?
Verwendung dieser Daten: head(USArrests) nrow(USArrests) Ich kann eine PCA wie folgt durchführen: plot(USArrests) otherPCA <- princomp(USArrests) Ich kann die neuen Komponenten bekommen otherPCA$scores und der Anteil der Varianz erklärt durch Komponenten mit summary(otherPCA) Aber was ist, wenn ich wissen möchte, welche Variablen hauptsächlich durch welche Hauptkomponenten erklärt werden? Und umgekehrt: …


1
Überwachte Dimensionsreduktion
Ich habe einen Datensatz bestehend aus 15K markierten Proben (von 10 Gruppen). Ich möchte die Dimensionsreduktion in 2 Dimensionen anwenden, die die Kenntnis der Etiketten berücksichtigen. Wenn ich "Standard" -Verfahren zur unbeaufsichtigten Dimensionsreduktion wie PCA verwende, scheint das Streudiagramm nichts mit den bekannten Beschriftungen zu tun zu haben. Hat das, …


1
Algebra der LDA. Fisher Diskriminanzstärke einer variablen und linearen Diskriminanzanalyse
Offenbar, Die Fisher-Analyse zielt darauf ab, gleichzeitig die Trennung zwischen den Klassen zu maximieren und gleichzeitig die Streuung innerhalb der Klassen zu minimieren. Ein nützliches Maß für das Unterscheidungsvermögen einer Variablen ist daher die Diagonalengröße: Bii/WiiBii/WiiB_{ii}/W_{ii} . http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Ich verstehe, dass die Größe ( p x p) der Matrizen zwischen …

3
PCA zu hochdimensionalen Textdaten vor der zufälligen Waldklassifikation?
Ist es sinnvoll, PCA durchzuführen, bevor eine zufällige Waldklassifizierung durchgeführt wird? Ich habe es mit hochdimensionalen Textdaten zu tun, und ich möchte eine Feature-Reduzierung durchführen, um den Fluch der Dimensionalität zu vermeiden. Ist Random Forests nicht bereits auf eine Art von Dimensionsreduzierung eingestellt?


1
Was bedeuten die Achsen in t-SNE?
Ich versuche gerade, meinen Kopf um die t-SNE- Mathematik zu wickeln . Leider gibt es noch eine Frage, die ich nicht zufriedenstellend beantworten kann: Was ist die tatsächliche Bedeutung der Achsen in einem t-SNE-Diagramm? Wenn ich zu diesem Thema einen Vortrag halten oder in eine Veröffentlichung aufnehmen würde: Wie würde …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Erklären Sie die Schritte des LLE-Algorithmus (Local Linear Embedding).
Ich verstehe, dass das Grundprinzip des Algorithmus für LLE aus drei Schritten besteht. Ermitteln der Nachbarschaft jedes Datenpunkts anhand einer Metrik wie k-nn. Suchen Sie für jeden Nachbarn Gewichte, die die Auswirkung des Nachbarn auf den Datenpunkt angeben. Konstruieren Sie die niedrig dimensionale Einbettung der Daten basierend auf den berechneten …

4
PCA nur mit einer Distanzmatrix durchführen
Ich möchte einen massiven Datensatz gruppieren, für den ich nur die paarweisen Abstände habe. Ich habe einen k-medoids-Algorithmus implementiert, dessen Ausführung jedoch zu lange dauert. Daher möchte ich zunächst die Dimension meines Problems durch Anwendung von PCA reduzieren. Die einzige Möglichkeit, diese Methode durchzuführen, ist die Verwendung der Kovarianzmatrix, die …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.