Als «distance» getaggte Fragen

Maß für den Abstand zwischen Verteilungen oder Variablen, z. B. den euklidischen Abstand zwischen Punkten im n-Raum.


3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 





1
Kann der Mantel-Test auf asymmetrische Matrizen erweitert werden?
Der Mantel-Test wird normalerweise auf symmetrische Distanz- / Differenzmatrizen angewendet. Nach meinem Verständnis geht der Test davon aus, dass das zur Definition von Differenzen verwendete Maß mindestens eine Halbmetrik sein muss (den Standardanforderungen einer Metrik, aber nicht der Dreiecksungleichung entsprechen). Kann die Annahme der Symmetrie gelockert werden (unter Angabe einer …


8
Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …

4
Warum sind gemischte Daten ein Problem für euklidische Clustering-Algorithmen?
Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …

3
Verteilung der Differenz zwischen zwei Normalverteilungen
Ich habe zwei Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } und f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Ich suche nach der Wahrscheinlichkeitsdichtefunktion der Trennung zwischen und x 2 . Ich denke, das heißt, ich …


9
Paarweise Mahalanobis-Entfernungen
Ich muss den Mahalanobis-Abstand in R zwischen jedem Beobachtungspaar in einer n×pn×pn \times p Matrix von Kovariaten berechnen. Ich benötige eine effiziente Lösung, dh es werden nur Abstände berechnet und vorzugsweise in C / RCpp / Fortran usw. implementiert. Ich gehe davon aus, dass , die Populationskovarianzmatrix, unbekannt ist, und …
18 r  algorithms  distance 


3
Berechnen Sie die Kullback-Leibler-Divergenz in der Praxis?
Ich benutze KL Divergence als Maß für die Unähnlichkeit zwischen 2 p.m.f.p.m.f.p.m.f. PPP und QQQ . =-≤P(Xi)ln(Q(Xi))+≤P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Wenn ist, können wir leicht berechnen, dass P ( X i ) l n ( Q ( X i ) ) …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.