Statistiken und Big Data dimensionality-reduction

2

Wann kombinieren wir Dimensionsreduktion mit Clustering?

Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis) angewendet, um die U, S, Vt-Matrizen zu erhalten, eine geeignete Schwelle unter Verwendung des Geröllplots ausgewählt und Clusterbildung …

16 clustering pca dimensionality-reduction text-mining svd

1

Was ist der Zusammenhang zwischen partiellen kleinsten Quadraten, reduzierter Rangregression und Hauptkomponentenregression?

Sind reduzierte Rangregression und Hauptkomponentenregression nur Sonderfälle von partiellen kleinsten Quadraten? In diesem Lernprogramm (Seite 6, "Objektivvergleich") wird angegeben, dass bei Teilquadraten ohne X- oder Y-Projektion (dh "nicht partiell") die Rang- oder Hauptkomponentenregression entsprechend verringert wird. Eine ähnliche Erklärung finden Sie auf dieser SAS-Dokumentationsseite in den Abschnitten "Reduzierte Rangregression" und …

16 regression pca dimensionality-reduction partial-least-squares reduced-rank-regression

2

Methoden zum Zusammenführen / Reduzieren von Kategorien in Ordnungs- oder Nominaldaten?

Ich habe Mühe, eine Methode zu finden, um die Anzahl der Kategorien in nominalen oder ordinalen Daten zu reduzieren. Angenommen, ich möchte ein Regressionsmodell für ein Dataset erstellen, das eine Reihe von nominalen und ordinalen Faktoren enthält. Während ich mit diesem Schritt keine Probleme habe, stoße ich häufig auf Situationen, …

14 r categorical-data dimensionality-reduction many-categories

4

Welche Variablen erklären welche PCA-Komponenten und umgekehrt?

Verwendung dieser Daten: head(USArrests) nrow(USArrests) Ich kann eine PCA wie folgt durchführen: plot(USArrests) otherPCA <- princomp(USArrests) Ich kann die neuen Komponenten bekommen otherPCA$scores und der Anteil der Varianz erklärt durch Komponenten mit summary(otherPCA) Aber was ist, wenn ich wissen möchte, welche Variablen hauptsächlich durch welche Hauptkomponenten erklärt werden? Und umgekehrt: …

14 r pca dimensionality-reduction regression-strategies

3

Auswahl der Hyperparameter mit T-SNE zur Klassifizierung

Als spezifisches Problem, mit dem ich arbeite (einen Wettbewerb), habe ich die folgende Einstellung: 21 Funktionen (numerisch auf [0,1]) und einen Binärausgang. Ich habe ca. 100 K Zeilen. Die Einstellung scheint sehr laut zu sein. Ich und andere Teilnehmer wenden die Feature-Generierung für eine Weile an, und das Einbetten von …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

1

Überwachte Dimensionsreduktion

Ich habe einen Datensatz bestehend aus 15K markierten Proben (von 10 Gruppen). Ich möchte die Dimensionsreduktion in 2 Dimensionen anwenden, die die Kenntnis der Etiketten berücksichtigen. Wenn ich "Standard" -Verfahren zur unbeaufsichtigten Dimensionsreduktion wie PCA verwende, scheint das Streudiagramm nichts mit den bekannten Beschriftungen zu tun zu haben. Hat das, …

13 machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis

2

Was ist der Unterschied zwischen Merkmalsauswahl und Dimensionsreduzierung?

Ich weiß, dass sowohl die Merkmalsauswahl als auch die Dimensionsreduzierung darauf abzielen, die Anzahl der Merkmale im ursprünglichen Merkmalssatz zu reduzieren. Was ist der genaue Unterschied zwischen den beiden, wenn wir in beiden dasselbe tun?

13 machine-learning pca feature-selection dimensionality-reduction

1

Algebra der LDA. Fisher Diskriminanzstärke einer variablen und linearen Diskriminanzanalyse

Offenbar, Die Fisher-Analyse zielt darauf ab, gleichzeitig die Trennung zwischen den Klassen zu maximieren und gleichzeitig die Streuung innerhalb der Klassen zu minimieren. Ein nützliches Maß für das Unterscheidungsvermögen einer Variablen ist daher die Diagonalengröße: Bii/WiiBii/WiiB_{ii}/W_{ii} . http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Ich verstehe, dass die Größe ( p x p) der Matrizen zwischen …

13 algorithms dimensionality-reduction discriminant-analysis sums-of-squares

3

PCA zu hochdimensionalen Textdaten vor der zufälligen Waldklassifikation?

Ist es sinnvoll, PCA durchzuführen, bevor eine zufällige Waldklassifizierung durchgeführt wird? Ich habe es mit hochdimensionalen Textdaten zu tun, und ich möchte eine Feature-Reduzierung durchführen, um den Fluch der Dimensionalität zu vermeiden. Ist Random Forests nicht bereits auf eine Art von Dimensionsreduzierung eingestellt?

13 classification pca random-forest dimensionality-reduction high-dimensional

2

Kann ich eine PCA zu wiederholten Maßnahmen zur Datenreduzierung durchführen?

Ich habe 3 Versuche mit jeweils 87 Tieren in 2 Kontexten (einige fehlende Daten; keine fehlenden Daten = 64 Tiere). In einem Kontext, ich viele spezifische Maßnahmen (Zeit zu geben, die Anzahl der Male Heim fahren, etc.), so dass ich 2 bis 3 Verbundverhalten Partituren entwickeln wollen, die das Verhalten …

13 repeated-measures pca dimensionality-reduction

1

Was bedeuten die Achsen in t-SNE?

Ich versuche gerade, meinen Kopf um die t-SNE- Mathematik zu wickeln . Leider gibt es noch eine Frage, die ich nicht zufriedenstellend beantworten kann: Was ist die tatsächliche Bedeutung der Achsen in einem t-SNE-Diagramm? Wenn ich zu diesem Thema einen Vortrag halten oder in eine Veröffentlichung aufnehmen würde: Wie würde …

12 machine-learning dimensionality-reduction tsne

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Erklären Sie die Schritte des LLE-Algorithmus (Local Linear Embedding).

Ich verstehe, dass das Grundprinzip des Algorithmus für LLE aus drei Schritten besteht. Ermitteln der Nachbarschaft jedes Datenpunkts anhand einer Metrik wie k-nn. Suchen Sie für jeden Nachbarn Gewichte, die die Auswirkung des Nachbarn auf den Datenpunkt angeben. Konstruieren Sie die niedrig dimensionale Einbettung der Daten basierend auf den berechneten …

12 machine-learning model-selection feature-selection dimensionality-reduction nonlinear

4

PCA nur mit einer Distanzmatrix durchführen

Ich möchte einen massiven Datensatz gruppieren, für den ich nur die paarweisen Abstände habe. Ich habe einen k-medoids-Algorithmus implementiert, dessen Ausführung jedoch zu lange dauert. Daher möchte ich zunächst die Dimension meines Problems durch Anwendung von PCA reduzieren. Die einzige Möglichkeit, diese Methode durchzuführen, ist die Verwendung der Kovarianzmatrix, die …

12 pca dimensionality-reduction multidimensional-scaling

1

Was nützt t-SNE neben der Datenvisualisierung?

In welchen Situationen sollten wir t-SNE verwenden (abgesehen von der Datenvisualisierung)? T-SNE wird zur Dimensionsreduzierung verwendet. Die Antwort auf diese Frage legt nahe, dass t-SNE nur zur Visualisierung und nicht zum Clustering verwendet werden sollte. Was nützt dann t-SNE?

12 data-visualization dimensionality-reduction tsne

Als «dimensionality-reduction» getaggte Fragen