Ich studiere Mustererkennung und Statistik und fast jedes Buch, das ich zu dem Thema aufschlage, stoße ich auf das Konzept der Mahalanobis-Distanz . Die Bücher geben eine Art intuitive Erklärungen, aber sie sind immer noch nicht gut genug, um wirklich zu verstehen, was los ist. Wenn mich jemand fragen würde: …
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Ich habe über die Intuition hinter der KL-Divergenz gelernt, wie sehr sich eine Modellverteilungsfunktion von der theoretischen / wahren Verteilung der Daten unterscheidet. Die Quelle, die ich lese, sagt weiter, dass das intuitive Verständnis der Distanz zwischen diesen beiden Verteilungen hilfreich ist, aber nicht wörtlich genommen werden sollte, da für …
Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe. Mein Prozess ist der folgende: Holen Sie sich die neuesten 1000 Beiträge in / r / politics Sammeln Sie alle Kommentare Verarbeiten Sie die Daten und berechnen Sie eine n …
In Random Forest-Algorithmus erstellt Breiman (Autor) eine Ähnlichkeitsmatrix wie folgt: Senden Sie alle Lernbeispiele an jeden Baum im Wald Wenn zwei Beispiele im selben Blatt landen, erhöhen Sie das entsprechende Element in der Ähnlichkeitsmatrix um 1 Normalisieren Sie die Matrix mit der Anzahl der Bäume Er sagt: Die Ähnlichkeiten zwischen …
Gibt es eine geschlossene Formel für die EMD zwischen x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) und x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?
Der Mantel-Test wird normalerweise auf symmetrische Distanz- / Differenzmatrizen angewendet. Nach meinem Verständnis geht der Test davon aus, dass das zur Definition von Differenzen verwendete Maß mindestens eine Halbmetrik sein muss (den Standardanforderungen einer Metrik, aber nicht der Dreiecksungleichung entsprechen). Kann die Annahme der Symmetrie gelockert werden (unter Angabe einer …
Ich möchte meine Daten hierarchisch gruppieren, aber anstatt die euklidische Distanz zu verwenden, möchte ich die Korrelation verwenden. Da der Korrelationskoeffizient im Bereich von -1 bis 1 liegt, wobei -1 und 1 in meiner Studie "Co-Regulation" bedeuten, behandle ich sowohl -1 als auch 1 als d = 0. Meine Berechnung …
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …
Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …
Ich habe zwei Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } und f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Ich suche nach der Wahrscheinlichkeitsdichtefunktion der Trennung zwischen und x 2 . Ich denke, das heißt, ich …
Bitte beweisen Sie, dass, wenn wir zwei Variablen (gleiche Stichprobengröße) und Y haben und die Varianz in X größer als in Y ist , die Summe der quadrierten Differenzen (dh der quadrierten euklidischen Abstände) zwischen Datenpunkten in X ebenfalls größer als ist dass innerhalb von Y .XXXYYYXXXYYYXXXYYY
Ich muss den Mahalanobis-Abstand in R zwischen jedem Beobachtungspaar in einer n×pn×pn \times p Matrix von Kovariaten berechnen. Ich benötige eine effiziente Lösung, dh es werden nur Abstände berechnet und vorzugsweise in C / RCpp / Fortran usw. implementiert. Ich gehe davon aus, dass , die Populationskovarianzmatrix, unbekannt ist, und …
Ich führe ein Datenanalyseprojekt durch, bei dem die Nutzungszeiten der Website im Laufe des Jahres untersucht werden. Was ich tun möchte, ist zu vergleichen, wie "konsistent" die Verwendungsmuster sind, sagen wir, wie nahe sie an einem Muster sind, bei dem es einmal pro Woche 1 Stunde lang verwendet wird, oder …
Ich benutze KL Divergence als Maß für die Unähnlichkeit zwischen 2 p.m.f.p.m.f.p.m.f. PPP und QQQ . =-≤P(Xi)ln(Q(Xi))+≤P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Wenn ist, können wir leicht berechnen, dass P ( X i ) l n ( Q ( X i ) ) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.