Als «distance» getaggte Fragen

Maß für den Abstand zwischen Verteilungen oder Variablen, z. B. den euklidischen Abstand zwischen Punkten im n-Raum.


3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 





1
Kann der Mantel-Test auf asymmetrische Matrizen erweitert werden?
Der Mantel-Test wird normalerweise auf symmetrische Distanz- / Differenzmatrizen angewendet. Nach meinem Verständnis geht der Test davon aus, dass das zur Definition von Differenzen verwendete Maß mindestens eine Halbmetrik sein muss (den Standardanforderungen einer Metrik, aber nicht der Dreiecksungleichung entsprechen). Kann die Annahme der Symmetrie gelockert werden (unter Angabe einer …


8
Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …

4
Warum sind gemischte Daten ein Problem für euklidische Clustering-Algorithmen?
Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …

3
Verteilung der Differenz zwischen zwei Normalverteilungen
Ich habe zwei Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } und f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Ich suche nach der Wahrscheinlichkeitsdichtefunktion der Trennung zwischen und x 2 . Ich denke, das heißt, ich …


9
Paarweise Mahalanobis-Entfernungen
Ich muss den Mahalanobis-Abstand in R zwischen jedem Beobachtungspaar in einer n×pn×pn \times p Matrix von Kovariaten berechnen. Ich benötige eine effiziente Lösung, dh es werden nur Abstände berechnet und vorzugsweise in C / RCpp / Fortran usw. implementiert. Ich gehe davon aus, dass , die Populationskovarianzmatrix, unbekannt ist, und …
18 r  algorithms  distance 


3
Berechnen Sie die Kullback-Leibler-Divergenz in der Praxis?
Ich benutze KL Divergence als Maß für die Unähnlichkeit zwischen 2 p.m.f.p.m.f.p.m.f. PPP und QQQ . =-≤P(Xi)ln(Q(Xi))+≤P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Wenn ist, können wir leicht berechnen, dass P ( X i ) l n ( Q ( X i ) ) …


1
Gibt es eine intuitive Charakterisierung der Distanzkorrelation?
Ich habe auf der Wikipedia-Seite nach Entfernungskorrelationen gestarrt, bei denen es darum zu gehen scheint, wie sie berechnet werden können. Während ich die Berechnungen durchführen konnte, kämpfe ich darum , welche Entfernungskorrelationsmaße und warum die Berechnungen so aussehen, wie sie aussehen. Gibt es eine (oder mehrere) intuitivere Charakterisierung der Entfernungskorrelation, …

5
Wie kann ich Distanz (Euklidisch) in Ähnlichkeit umwandeln?
Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]





2
Wie groß ist der Abstand zwischen einer endlichen Gaußschen Mischung und einer Gaußschen?
Angenommen, ich habe eine Mischung aus endlich vielen Gaußschen mit bekannten Gewichten, Mittelwerten und Standardabweichungen. Die Mittel sind nicht gleich. Der Mittelwert und die Standardabweichung des Gemisches können natürlich berechnet werden, da die Momente gewichtete Mittelwerte der Momente der Komponenten sind. Die Mischung ist keine Normalverteilung, aber wie weit ist …



1
Was ist die optimale Distanzfunktion für Personen, wenn Attribute nominal sind?
Ich weiß nicht, welche Distanzfunktion zwischen Individuen bei nominalen (ungeordneten kategorialen) Attributen verwendet werden soll. Ich habe ein Lehrbuch gelesen und sie schlagen die Simple Matching- Funktion vor, aber einige Bücher schlagen vor, dass ich die nominalen in binäre Attribute ändern und den Jaccard- Koeffizienten verwenden sollte. Was ist jedoch, …

2
Funktioniert der Satz von Mercer umgekehrt?
Ein Kollege hat eine Funktion sss und für unsere Zwecke ist es eine Blackbox. Die Funktion misst die Ähnlichkeit zweier Objekte.s(a,b)s(a,b)s(a,b) Wir wissen sicher, dass diese Eigenschaften hat:sss Die Ähnlichkeitswerte sind reelle Zahlen zwischen 0 und einschließlich 1. Nur die Objekte, die selbstidentisch sind, haben Punktzahlen von 1. Also impliziert …

2
Was sind die Abstände zwischen Variablen, die eine Kovarianzmatrix bilden?
Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).n×nn×nn \times nkkk Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)? Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.