Statistiken und Big Data dimensionality-reduction

1

t-SNE mit gemischten kontinuierlichen und binären Variablen

Ich untersuche derzeit die Visualisierung hochdimensionaler Daten mit t-SNE. Ich habe einige Daten mit gemischten binären und kontinuierlichen Variablen und die Daten scheinen die binären Daten viel zu leicht zu gruppieren. Dies wird natürlich für skalierte Daten (zwischen 0 und 1) erwartet: Der euklidische Abstand ist zwischen binären Variablen immer …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

2

Warum maximiert PCA die Gesamtvarianz der Projektion?

Christopher Bishop schreibt in seinem Buch Pattern Recognition and Machine Learning einen Beweis dafür, dass jede aufeinanderfolgende Hauptkomponente die Varianz der Projektion auf eine Dimension maximiert, nachdem die Daten in den orthogonalen Raum zu den zuvor ausgewählten Komponenten projiziert wurden. Andere zeigen ähnliche Beweise. Dies beweist jedoch nur, dass jede …

10 machine-learning variance pca dimensionality-reduction eigenvalues

1

R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

Clustering als Dimensionsreduktion

Ich lese ein Buch "Maschinelles Lernen mit Funken" von Nick Pentreath und auf Seite 224-225 diskutiert der Autor über die Verwendung von K-Mitteln als Form der Dimensionsreduktion. Ich habe diese Art der Dimensionsreduktion noch nie gesehen. Hat sie einen Namen oder / und ist sie für bestimmte Datenformen nützlich ? …

10 clustering k-means dimensionality-reduction

2

Modellierung mit mehr Variablen als Datenpunkten

Ich bin ziemlich neu im Bereich maschinelles Lernen / Modellieren und möchte Hintergrundinformationen zu diesem Problem. Ich habe einen Datensatz, in dem die Anzahl der Beobachtungen die Anzahl der Variablen jedoch . Erstens ist es überhaupt sinnvoll, ein Modell auf einem solchen Datensatz aufzubauen, oder sollte man zunächst eine variable …

10 regression machine-learning dimensionality-reduction penalized

3

PCA zu langsam, wenn beide n, p groß sind: Alternativen?

Problemeinrichtung Ich habe Datenpunkte (Bilder) mit hoher Dimension (4096), die ich in 2D visualisieren möchte. Zu diesem Zweck verwende ich t-sne auf ähnliche Weise wie der folgende Beispielcode von Karpathy . In der Scikit-Learn-Dokumentation wird empfohlen, PCA zu verwenden, um zunächst die Dimension der Daten zu verringern : Es wird …

9 pca dimensionality-reduction high-dimensional java tsne

1

Was ist der Unterschied zwischen vielfältigem Lernen und nichtlinearer Dimensionsreduktion?

Was ist der Unterschied zwischen vielfältigem Lernen und nichtlinearer Dimensionsreduktion ? Ich habe gesehen, dass diese beiden Begriffe synonym verwendet werden. Beispielsweise: http://www.cs.cornell.edu/~kilian/research/manifold/manifold.html : Manifold Learning (oft auch als nichtlineare Dimensionsreduktion bezeichnet) verfolgt das Ziel, Daten, die ursprünglich in einem hochdimensionalen Raum liegen, in einen Raum mit niedrigeren Dimensionen einzubetten …

9 terminology dimensionality-reduction manifold-learning

2

Verständnis dieser PCA-Darstellung der Eisverkäufe im Verhältnis zur Temperatur

Ich nehme Dummy-Daten der Temperatur im Vergleich zu Eisverkäufen und kategorisiere sie mit K-Mitteln (n Cluster = 2), um 2 Kategorien zu unterscheiden (total Dummy). Jetzt mache ich eine Hauptkomponentenanalyse dieser Daten und mein Ziel ist es zu verstehen, was ich sehe. Ich weiß, dass das PCA-Ziel darin besteht, die …

9 pca interpretation k-means dimensionality-reduction

2

Skalierbare Dimensionsreduzierung

In Anbetracht der konstanten Anzahl von Merkmalen hat Barnes-Hut t-SNE eine Komplexität von , zufällige Projektionen und PCA eine Komplexität von was sie für sehr große Datenmengen "erschwinglich" macht.O ( n )O ( n logn )O(nlog⁡n)O(n\log n)O ( n )O(n)O(n) Andererseits weisen Verfahren, die auf mehrdimensionaler Skalierung beruhen , eine …

9 pca dimensionality-reduction large-data multidimensional-scaling tsne

1

Dieses Autoencoder-Netzwerk kann nicht ordnungsgemäß funktionieren (mit Faltungs- und Maxpool-Schichten).

Autoencoder- Netzwerke scheinen viel schwieriger zu sein als normale Klassifikator-MLP-Netzwerke. Nach mehreren Versuchen mit Lasagne ist alles, was ich in der rekonstruierten Ausgabe bekomme, etwas, das im besten Fall einer verschwommenen Mittelung aller Bilder der MNIST- Datenbank ähnelt, ohne zu unterscheiden, was die eingegebene Ziffer tatsächlich ist. Die von mir …

9 machine-learning neural-networks dimensionality-reduction unsupervised-learning autoencoders

2

Wie kann man beweisen, dass die vielfältige Annahme richtig ist?

Beim maschinellen Lernen wird häufig angenommen, dass ein Datensatz auf einer glatten niedrigdimensionalen Mannigfaltigkeit liegt (die Mannigfaltigkeitsannahme), aber gibt es eine Möglichkeit zu beweisen, dass unter der Annahme, dass bestimmte Bedingungen erfüllt sind, der Datensatz tatsächlich (ungefähr) erzeugt wird von einem niedrigdimensionalen glatten Verteiler? Zum Beispiel gegeben eine Datensequenz wobei …

9 machine-learning dimensionality-reduction manifold-learning

3

Muss ICA zuerst PCA ausführen?

Ich habe ein anwendungsbasiertes Papier gelesen, in dem es heißt, dass PCA vor der Anwendung von ICA angewendet wird (unter Verwendung des fastICA-Pakets). Meine Frage ist, erfordert ICA (fastICA), dass PCA zuerst ausgeführt wird? Dieses Papier erwähnte das ... wird auch argumentiert, dass die Voranwendung von PCA die ICA-Leistung verbessert, …

9 pca dimensionality-reduction pattern-recognition ica

4

Nicht orthogonale Technik analog zu PCA

Angenommen, ich habe einen 2D-Punktdatensatz und möchte die Richtungen aller lokalen Varianzmaxima in den Daten ermitteln, zum Beispiel: PCA hilft in dieser Situation nicht, da es sich um eine orthogonale Zerlegung handelt und daher nicht beide Linien erkennen kann, die ich blau angezeigt habe. Stattdessen kann die Ausgabe wie die …

9 pca dimensionality-reduction

2

Verzerrte Variablen in der PCA- oder Faktoranalyse

Ich möchte eine Hauptkomponentenanalyse (Faktoranalyse) auf SPSS basierend auf 22 Variablen durchführen. Einige meiner Variablen sind jedoch sehr verzerrt (die aus SPSS berechnete Schiefe liegt zwischen 2 und 80!). Also hier sind meine Fragen: Sollte ich die verzerrten Variablen so beibehalten oder könnte ich die Variablen bei der Hauptkomponentenanalyse transformieren? …

9 pca factor-analysis dimensionality-reduction skewness

3

Was ist der Punkt der Singularwertzerlegung?

Ich verstehe nicht, warum die Reduzierung der Dimension wichtig ist. Was ist der Vorteil, wenn einige Daten erfasst und ihre Dimension reduziert werden?

9 dimensionality-reduction svd

Als «dimensionality-reduction» getaggte Fragen