Statistiken und Big Data dimensionality-reduction

1

Wie sind die Ergebnisse der Dimensionsreduktion / mehrdimensionalen Skalierung zu interpretieren?

Ich habe sowohl eine SVD-Zerlegung als auch eine mehrdimensionale Skalierung einer 6-dimensionalen Datenmatrix durchgeführt, um die Struktur der Daten besser zu verstehen. Leider sind alle Singularwerte in derselben Größenordnung, was bedeutet, dass die Dimensionalität der Daten tatsächlich 6 beträgt. Ich möchte jedoch die Werte der Singularvektoren interpretieren können. Zum Beispiel …

9 pca interpretation dimensionality-reduction svd

1

HMC: Wie viele Dimensionen sind zu viele?

Nach dem, was ich gelesen habe, ist Hamiltonian Monte Carlo die "goto" MCMC-Methode, wenn Ihr Problem hochdimensional ist. Wie viele Dimensionen 10, 100, 1000, 10.000, 100.000, ... sind praktisch zu viele? Die Rechenkosten werden zweifellos zu einem Problem, und ich nehme an, dass das verwendete Modell wichtig ist, aber abgesehen …

9 autocorrelation mcmc monte-carlo dimensionality-reduction

1

Codieren von kategorialen Merkmalen mit hoher Kardinalität (viele Kategorien), wenn sich die Merkmale in Bezug auf die Kardinalität stark unterscheiden

Ich habe Fragen zur Codierung kategorialer Features durchgesehen, konnte jedoch keine finden, die mein Problem diskutieren. Entschuldigung, wenn ich es verpasst habe. Nehmen wir an, wir haben einen Datensatz mit binären und nominalen Variablen von jeweils ungefähr gleicher Bedeutung. Die meisten Klassifizierer können sich nicht direkt mit kategorialen Typen befassen, …

8 classification categorical-data dimensionality-reduction feature-construction many-categories

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

Eine Person wählt wiederholt die zwei ähnlichsten Elemente aus drei aus. Wie modelliere / schätze ich einen Wahrnehmungsabstand zwischen den Elementen?

Eine Person erhält drei Gegenstände, beispielsweise Bilder von Gesichtern, und wird gebeten, herauszufinden, welche der drei Gesichter am ähnlichsten sind. Dies wird sehr oft mit verschiedenen Kombinationen von Gesichtern wiederholt, wobei jedes Gesicht in vielen Kombinationen auftreten kann. Angesichts dieser Art von Daten möchte ich den Unterschied / die Ähnlichkeit …

8 modeling dimensionality-reduction psychometrics similarities

1

Lineare Diskriminanzanalyse und nicht normalverteilte Daten

Wenn ich das richtig verstehe, setzt eine lineare Diskriminanzanalyse (LDA) normalverteilte Daten, unabhängige Merkmale und identische Kovarianzen für jede Klasse für das Optimalitätskriterium voraus. Ist es nicht schon eine Verletzung, da der Mittelwert und die Varianz aus den Trainingsdaten geschätzt werden? Ich fand ein Zitat in einem Artikel (Li, Tao, …

8 dimensionality-reduction normality-assumption discriminant-analysis

1

Wann ist es angebracht, PCA als Vorverarbeitungsschritt zu verwenden?

Ich verstehe, dass PCA zur Reduzierung der Dimensionalität verwendet wird, um Datensätze in 2D oder 3D zeichnen zu können. Ich habe aber auch Leute gesehen, die PCA als Vorverarbeitungsschritt in Klassifizierungsszenarien anwenden, in denen sie PCA anwenden, um die Anzahl der Merkmale zu reduzieren, und dann einige Hauptkomponenten (die Eigenvektoren …

8 machine-learning pca data-mining dimensionality-reduction

2

Verwendung selbstorganisierender Karten zur Reduzierung der Dimensionalität

In den letzten Tagen habe ich einige Untersuchungen zu selbstorganisierenden Karten für ein Projekt in der Schule durchgeführt. Ich habe verstanden, dass selbstorganisierende Karten verwendet werden können, um die Dimensionalität Ihrer Daten zu verringern. Ich verstehe jedoch nicht, wie das funktioniert. Angenommen, Sie haben ein 10x10-Netzwerk von Neuronen in einem …

8 data-transformation dimensionality-reduction self-organizing-maps

3

Reduzierung der Seriendimensionalität zur Klassifizierung Eingabe

Ich möchte ein Vorhersagemodell erstellen, bei dem die Ergebnisvariable binär und die Eingabe Zeitreihen sind. Um es konkreter zu machen, wird das Modell anhand des Betrags, den er in den letzten 60 Tagen für das Unternehmen ausgegeben hat, vorhersagen, ob ein Kunde abwandert (das Unternehmen verlassen hat; als 1 oder …

8 data-mining data-transformation dimensionality-reduction signal-processing

3

Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?

Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

4

p-Wert als Abstand?

Können p-Werte zwischen mehreren paarweisen Tests als Ähnlichkeits- / Abstandsmaß betrachtet und eine mehrdimensionale Skalierung auf eine paarweise Matrix von p-Werten angewendet werden, um die Dimensionalität zu verringern? Dies ist eine weiche Frage, aber was wäre hier das größte Problem, und wie könnte dies am besten überwunden werden? (Beispiel: dreieckige …

8 multivariate-analysis p-value dimensionality-reduction

3

Dimensionsreduktionstechniken für sehr kleine Stichprobengrößen

Ich habe 21 sozioökonomische Variablen und Variablen auf Makroebene (z. B. Prozentsatz der nicht erwerbstätigen Mütter im Alter von 24 bis 54 Jahren, Prozentsatz der Kinder im Alter von 3 bis 5 Jahren in Kindergärten usw.). Ich habe auch Daten über die Anteile der Großeltern, die eine intensive Kinderbetreuung angeboten …

8 pca factor-analysis dimensionality-reduction small-sample correspondence-analysis

5

Dimensionalitätsreduktionstechnik zur Maximierung der Trennung bekannter Cluster?

Nehmen wir also an, ich habe eine Reihe von Datenpunkten in R ^ n, wobei n ziemlich groß ist (wie 50). Ich weiß, dass diese Daten in drei Cluster unterteilt sind und ich weiß, zu welchem Cluster jeder Datenpunkt gehört. Alles, was ich tun möchte, ist, diese Cluster in 2D …

8 clustering pca dimensionality-reduction data-visualization

3

Wie kann man die wahre Dimensionalität der Daten visualisieren?

Ich habe einen Datensatz, der nominell 16-dimensional ist. Ich habe ungefähr 100 Proben in einem Fall und ungefähr 20.000 in einem anderen. Basierend auf verschiedenen explorativen Analysen, die ich mit PCA und Wärmekarten durchgeführt habe, bin ich überzeugt, dass die wahre Dimensionalität (dh die Anzahl der Dimensionen, die zum Erfassen …

8 data-visualization pca dimensionality-reduction

2

Warum ist der Autoencoder-Decoder normalerweise die umgekehrte Architektur als Encoder?

Jede Autoencoder-Architektur, die ich gesehen habe, hat eine ähnliche Architektur, hauptsächlich, dass der Decoder genau das Gegenteil des Encoders ist. Wenn das Ziel des Autoencoders das Lernen von niedrigdimensionalen Merkmalen ist, warum ist der Decoder nicht einfach? Ein Beispiel wäre eine lineare Transformation wobei eine Beobachtung durch die Merkmalsmatrix (dh …

7 neural-networks dimensionality-reduction autoencoders

Als «dimensionality-reduction» getaggte Fragen