Statistiken und Big Data correlation

4

Intuition / Interpretation einer Verteilung von Eigenwerten einer Korrelationsmatrix?

Was ist Ihre Intuition / Interpretation einer Verteilung von Eigenwerten einer Korrelationsmatrix? Ich neige dazu zu hören, dass normalerweise 3 größte Eigenwerte am wichtigsten sind, während diejenigen nahe Null Rauschen sind. Ich habe auch einige Forschungsarbeiten gesehen, in denen untersucht wurde, wie sich natürlich vorkommende Eigenwertverteilungen von denen unterscheiden, die …

13 distributions correlation

1

GBM-Paket vs. Caret mit GBM

Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

12 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

ICC als erwartete Korrelation zwischen zwei zufällig gezogenen Einheiten, die sich in derselben Gruppe befinden

Bei der mehrstufigen Modellierung wird die Intraclass-Korrelation häufig aus einer ANOVA mit Zufallseffekten berechnet yich j= γ00+ uj+ eich jyichj=γ00+uj+eichj y_{ij} = \gamma_{00} + u_j + e_{ij} Dabei sind die Residuen der Ebene 2 und die Residuen der Ebene 1. Dann erhalten wir Schätzungen, und für die Varianz von und …

12 correlation mixed-model intraclass-correlation

4

Ist die Dreiecksungleichung für diese korrelationsbasierten Abstände erfüllt?

Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen XXX und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich …

12 correlation clustering distance metric

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Schätzen der Korrelation zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen mithilfe gegenseitiger Informationen

In Bezug auf den Titel besteht die Idee darin, die gegenseitige Information hier und nach MI zu verwenden, um die "Korrelation" (definiert als "wie viel ich über A weiß, wenn ich B weiß") zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen zu schätzen. Ich werde Ihnen gleich meine Gedanken zu …

12 correlation information-theory mutual-information

2

Können p-Werte für den Pearson-Korrelationstest nur aus dem Korrelationskoeffizienten und der Stichprobengröße berechnet werden?

Hintergrund: Ich habe einen Artikel gelesen, in dem Autoren die Pearson-Korrelation 0,754 aus Stichprobengröße 878 berichten. Der resultierende p-Wert für den Korrelationstest ist "zwei Sterne" signifikant (dh p <0,01). Ich denke jedoch, dass bei einer so großen Stichprobengröße der entsprechende p-Wert unter 0,001 liegen sollte (dh drei Sterne signifikant). Können …

12 hypothesis-testing correlation p-value fraud

3

Beziehen sich Korrelation oder Bestimmungskoeffizient auf den Prozentsatz der Werte, die entlang einer Regressionslinie fallen?

Die Korrelation rrr ist ein Maß für die lineare Assoziation zwischen zwei Variablen. Der Bestimmungskoeffizient r2r2r^2 ist ein Maß dafür, wie viel von der Variabilität in einer Variablen durch Variation in der anderen "erklärt" werden kann. Wenn zum Beispiel r=0.8r=0.8r = 0.8 die Korrelation zwischen zwei Variablen ist, dann ist …

12 regression correlation r-squared

1

Warum sollten Sie protokollierte Variablen verwenden?

Wahrscheinlich ist dies eine sehr grundlegende Frage, aber ich bin nicht in der Lage, eine solide Antwort darauf zu finden. Ich hoffe hier kann ich. Ich lese gerade Artikel als Vorbereitung für meine eigene Masterarbeit. Derzeit lese ich einen Artikel, der die Beziehung zwischen Tweets und Börsenmerkmalen untersucht. In einer …

12 correlation data-transformation logarithm

2

Positive Korrelation und negatives Vorzeichen des Regressorkoeffizienten

Ist es möglich, eine positive Korrelation zwischen einem Regressor und einer Antwort ( +0,43) zu erhalten und anschließend einen negativen Koeffizienten im angepassten Regressionsmodell für diesen Regressor zu erhalten? Ich spreche nicht über Veränderungen im Zeichen des Regressors bei einigen Modellen. Das Koeffizientenzeichen bleibt immer erhalten. Könnten die verbleibenden Variablen …

12 correlation multiple-regression regression-coefficients

1

Warum ergibt das Quadrieren von

Dies mag eine grundlegende Frage sein, aber ich habe mich gefragt, warum ein RRR Wert in einem Regressionsmodell einfach quadriert werden kann, um eine Zahl der erklärten Varianz zu erhalten. Ich verstehe, dass der RRR Koeffizient die Stärke einer Beziehung angeben kann, aber ich verstehe nicht, wie einfach das Quadrieren …

12 regression correlation r-squared

2

Erwarteter Wert der falschen Korrelation

Wir zeichnen NNN Proben, jede der Größe nnn , unabhängig von einer Normalverteilung (μ,σ2)(μ,σ2)(\mu,\sigma^2) . Aus den NNN Stichproben wählen wir dann die 2 Stichproben mit der höchsten (absoluten) Pearson-Korrelation aus. Was ist der erwartete Wert dieser Korrelation? Danke [PS Das sind keine Hausaufgaben]

12 correlation normal-distribution expected-value maximum

2

Korrelierende Volume-Zeitreihen

Betrachten Sie das folgende Diagramm: Die rote Linie (linke Achse) beschreibt das Handelsvolumen einer bestimmten Aktie. Die blaue Linie (rechte Achse) beschreibt das Twitter-Nachrichtenvolumen für diese Aktie. Zum Beispiel wurden am 9. Mai (05-09) ungefähr 1.100 Millionen Trades und 4.000 Tweets getätigt. Ich möchte berechnen, ob es eine Korrelation zwischen …

12 time-series correlation lags

1

Wie ist die Reihenfolge der Korrelation?

Was wird durch die Begriffe nullte, erste, zweite, dritte usw. Korrelationsordnung ausgedrückt? Vielen Dank!

12 correlation

4

Pearson-Korrelation von Datensätzen mit möglicherweise null Standardabweichung?

Ich habe ein Problem bei der Berechnung des Pearson-Korrelationskoeffizienten von Datensätzen mit möglicherweise null Standardabweichung (dh alle Daten haben den gleichen Wert). Angenommen, ich habe die folgenden zwei Datensätze: float x[] = {2, 2, 2, 3, 2}; float y[] = {2, 2, 2, 2, 2}; Der Korrelationskoeffizient "r" würde unter …

12 correlation

Als «correlation» getaggte Fragen