Statistiken und Big Data distance

9

Erklärung der Mahalanobis-Distanz von unten nach oben?

Ich studiere Mustererkennung und Statistik und fast jedes Buch, das ich zu dem Thema aufschlage, stoße ich auf das Konzept der Mahalanobis-Distanz . Die Bücher geben eine Art intuitive Erklärungen, aber sie sind immer noch nicht gut genug, um wirklich zu verstehen, was los ist. Wenn mich jemand fragen würde: …

127 normal-distribution mathematical-statistics distance pattern-recognition intuition

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

Intuition über die Kullback-Leibler (KL) -Divergenz

Ich habe über die Intuition hinter der KL-Divergenz gelernt, wie sehr sich eine Modellverteilungsfunktion von der theoretischen / wahren Verteilung der Daten unterscheidet. Die Quelle, die ich lese, sagt weiter, dass das intuitive Verständnis der Distanz zwischen diesen beiden Verteilungen hilfreich ist, aber nicht wörtlich genommen werden sollte, da für …

47 distributions distance intuition kullback-leibler

2

Auswahl der richtigen Verknüpfungsmethode für hierarchisches Clustering

Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe. Mein Prozess ist der folgende: Holen Sie sich die neuesten 1000 Beiträge in / r / politics Sammeln Sie alle Kommentare Verarbeiten Sie die Daten und berechnen Sie eine n …

32 clustering distance unsupervised-learning hierarchical-clustering

1

Umwandlung der Ähnlichkeitsmatrix in eine (euklidische) Distanzmatrix

In Random Forest-Algorithmus erstellt Breiman (Autor) eine Ähnlichkeitsmatrix wie folgt: Senden Sie alle Lernbeispiele an jeden Baum im Wald Wenn zwei Beispiele im selben Blatt landen, erhöhen Sie das entsprechende Element in der Ähnlichkeitsmatrix um 1 Normalisieren Sie die Matrix mit der Anzahl der Bäume Er sagt: Die Ähnlichkeiten zwischen …

27 random-forest distance similarities euclidean

1

Earth Mover's Distance (EMD) zwischen zwei Gaußschen

Gibt es eine geschlossene Formel für die EMD zwischen x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) und x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?

26 normal-distribution distance

1

Kann der Mantel-Test auf asymmetrische Matrizen erweitert werden?

Der Mantel-Test wird normalerweise auf symmetrische Distanz- / Differenzmatrizen angewendet. Nach meinem Verständnis geht der Test davon aus, dass das zur Definition von Differenzen verwendete Maß mindestens eine Halbmetrik sein muss (den Standardanforderungen einer Metrik, aber nicht der Dreiecksungleichung entsprechen). Kann die Annahme der Symmetrie gelockert werden (unter Angabe einer …

26 statistical-significance assumptions distance

1

Korrelation als Distanzmetrik verwenden (für hierarchisches Clustering)

Ich möchte meine Daten hierarchisch gruppieren, aber anstatt die euklidische Distanz zu verwenden, möchte ich die Korrelation verwenden. Da der Korrelationskoeffizient im Bereich von -1 bis 1 liegt, wobei -1 und 1 in meiner Studie "Co-Regulation" bedeuten, behandle ich sowohl -1 als auch 1 als d = 0. Meine Berechnung …

22 correlation clustering distance hierarchical-clustering

8

Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen

Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …

22 machine-learning clustering data-mining k-means distance

4

Warum sind gemischte Daten ein Problem für euklidische Clustering-Algorithmen?

Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

3

Verteilung der Differenz zwischen zwei Normalverteilungen

Ich habe zwei Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } und f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Ich suche nach der Wahrscheinlichkeitsdichtefunktion der Trennung zwischen und x 2 . Ich denke, das heißt, ich …

20 distributions normal-distribution distance

1

Verknüpfung zwischen Varianz und paarweisen Abständen innerhalb einer Variablen

Bitte beweisen Sie, dass, wenn wir zwei Variablen (gleiche Stichprobengröße) und Y haben und die Varianz in X größer als in Y ist , die Summe der quadrierten Differenzen (dh der quadrierten euklidischen Abstände) zwischen Datenpunkten in X ebenfalls größer als ist dass innerhalb von Y .XXXYYYXXXYYYXXXYYY

20 variance distance

9

Paarweise Mahalanobis-Entfernungen

Ich muss den Mahalanobis-Abstand in R zwischen jedem Beobachtungspaar in einer n×pn×pn \times p Matrix von Kovariaten berechnen. Ich benötige eine effiziente Lösung, dh es werden nur Abstände berechnet und vorzugsweise in C / RCpp / Fortran usw. implementiert. Ich gehe davon aus, dass , die Populationskovarianzmatrix, unbekannt ist, und …

18 r algorithms distance

3

Wie wird der statistische Abstand zwischen zwei Häufigkeitsverteilungen gemessen?

Ich führe ein Datenanalyseprojekt durch, bei dem die Nutzungszeiten der Website im Laufe des Jahres untersucht werden. Was ich tun möchte, ist zu vergleichen, wie "konsistent" die Verwendungsmuster sind, sagen wir, wie nahe sie an einem Muster sind, bei dem es einmal pro Woche 1 Stunde lang verwendet wird, oder …

14 distributions distance frequency comparison

3

Berechnen Sie die Kullback-Leibler-Divergenz in der Praxis?

Ich benutze KL Divergence als Maß für die Unähnlichkeit zwischen 2 p.m.f.p.m.f.p.m.f. PPP und QQQ . =-≤P(Xi)ln(Q(Xi))+≤P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Wenn ist, können wir leicht berechnen, dass P ( X i ) l n ( Q ( X i ) ) …

14 distributions distance kullback-leibler

Als «distance» getaggte Fragen