Ich studiere Mustererkennung und Statistik und fast jedes Buch, das ich zu dem Thema aufschlage, stoße ich auf das Konzept der Mahalanobis-Distanz . Die Bücher geben eine Art intuitive Erklärungen, aber sie sind immer noch nicht gut genug, um wirklich zu verstehen, was los ist. Wenn mich jemand fragen würde: …
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Ich habe über die Intuition hinter der KL-Divergenz gelernt, wie sehr sich eine Modellverteilungsfunktion von der theoretischen / wahren Verteilung der Daten unterscheidet. Die Quelle, die ich lese, sagt weiter, dass das intuitive Verständnis der Distanz zwischen diesen beiden Verteilungen hilfreich ist, aber nicht wörtlich genommen werden sollte, da für …
Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe. Mein Prozess ist der folgende: Holen Sie sich die neuesten 1000 Beiträge in / r / politics Sammeln Sie alle Kommentare Verarbeiten Sie die Daten und berechnen Sie eine n …
In Random Forest-Algorithmus erstellt Breiman (Autor) eine Ähnlichkeitsmatrix wie folgt: Senden Sie alle Lernbeispiele an jeden Baum im Wald Wenn zwei Beispiele im selben Blatt landen, erhöhen Sie das entsprechende Element in der Ähnlichkeitsmatrix um 1 Normalisieren Sie die Matrix mit der Anzahl der Bäume Er sagt: Die Ähnlichkeiten zwischen …
Gibt es eine geschlossene Formel für die EMD zwischen x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) und x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?
Der Mantel-Test wird normalerweise auf symmetrische Distanz- / Differenzmatrizen angewendet. Nach meinem Verständnis geht der Test davon aus, dass das zur Definition von Differenzen verwendete Maß mindestens eine Halbmetrik sein muss (den Standardanforderungen einer Metrik, aber nicht der Dreiecksungleichung entsprechen). Kann die Annahme der Symmetrie gelockert werden (unter Angabe einer …
Ich möchte meine Daten hierarchisch gruppieren, aber anstatt die euklidische Distanz zu verwenden, möchte ich die Korrelation verwenden. Da der Korrelationskoeffizient im Bereich von -1 bis 1 liegt, wobei -1 und 1 in meiner Studie "Co-Regulation" bedeuten, behandle ich sowohl -1 als auch 1 als d = 0. Meine Berechnung …
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …
Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …
Ich habe zwei Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } und f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Ich suche nach der Wahrscheinlichkeitsdichtefunktion der Trennung zwischen und x 2 . Ich denke, das heißt, ich …
Bitte beweisen Sie, dass, wenn wir zwei Variablen (gleiche Stichprobengröße) und Y haben und die Varianz in X größer als in Y ist , die Summe der quadrierten Differenzen (dh der quadrierten euklidischen Abstände) zwischen Datenpunkten in X ebenfalls größer als ist dass innerhalb von Y .XXXYYYXXXYYYXXXYYY
Ich muss den Mahalanobis-Abstand in R zwischen jedem Beobachtungspaar in einer n×pn×pn \times p Matrix von Kovariaten berechnen. Ich benötige eine effiziente Lösung, dh es werden nur Abstände berechnet und vorzugsweise in C / RCpp / Fortran usw. implementiert. Ich gehe davon aus, dass , die Populationskovarianzmatrix, unbekannt ist, und …
Ich führe ein Datenanalyseprojekt durch, bei dem die Nutzungszeiten der Website im Laufe des Jahres untersucht werden. Was ich tun möchte, ist zu vergleichen, wie "konsistent" die Verwendungsmuster sind, sagen wir, wie nahe sie an einem Muster sind, bei dem es einmal pro Woche 1 Stunde lang verwendet wird, oder …
Ich benutze KL Divergence als Maß für die Unähnlichkeit zwischen 2 p.m.f.p.m.f.p.m.f. PPP und QQQ . =-≤P(Xi)ln(Q(Xi))+≤P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Wenn ist, können wir leicht berechnen, dass P ( X i ) l n ( Q ( X i ) ) …
Ich werde KL-Divergenz in meinem Python-Code verwenden und habe dieses Tutorial erhalten . In diesem Tutorial ist die Implementierung der KL-Divergenz recht einfach. kl = (model * np.log(model/actual)).sum() Soweit ich weiß, sollte die Wahrscheinlichkeitsverteilung von modelund actual<= 1 sein. Meine Frage ist, was ist die maximale Schranke / der maximal …
Ich habe auf der Wikipedia-Seite nach Entfernungskorrelationen gestarrt, bei denen es darum zu gehen scheint, wie sie berechnet werden können. Während ich die Berechnungen durchführen konnte, kämpfe ich darum , welche Entfernungskorrelationsmaße und warum die Berechnungen so aussehen, wie sie aussehen. Gibt es eine (oder mehrere) intuitivere Charakterisierung der Entfernungskorrelation, …
Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]
Bei der Untersuchung der Kullback-Leibler-Distanz lernen wir sehr schnell, dass sie weder die Dreiecksungleichung noch die Symmetrie berücksichtigt, die für eine Metrik erforderlich ist. Meine Frage ist, ob es eine Metrik von Wahrscheinlichkeitsdichtefunktionen gibt, die alle Bedingungen einer Metrik erfüllt .
Ich habe zwei Datensätze (Quell- und Zieldaten), die der unterschiedlichen Verteilung folgen. Ich verwende MMD - das ist eine nicht parametrische Entfernungsverteilung -, um die Randverteilung zwischen den Quell- und Zieldaten zu berechnen. Quelldaten, Xs Zieldaten, Xt Anpassungsmatrix A. * Projizierte Daten, Zs = A '* Xs und Zt = …
Ich habe über 3000 Vektoren in einem zweidimensionalen Gitter mit einer ungefähr gleichmäßigen diskreten Verteilung. Einige Vektorpaare erfüllen eine bestimmte Bedingung. Hinweis: die Bedingung nur anwendbar ist Paaren von Vektoren, nicht auf einzelne Vektoren. Ich habe eine Liste von ungefähr 1500 solcher Paare, nennen wir es Gruppe 1. Gruppe 2 …
Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen XXX und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich …
Angenommen, ich habe eine Mischung aus endlich vielen Gaußschen mit bekannten Gewichten, Mittelwerten und Standardabweichungen. Die Mittel sind nicht gleich. Der Mittelwert und die Standardabweichung des Gemisches können natürlich berechnet werden, da die Momente gewichtete Mittelwerte der Momente der Komponenten sind. Die Mischung ist keine Normalverteilung, aber wie weit ist …
Ich verstehe die Gründe für die Spaltennormalisierung, da dadurch Merkmale gleich gewichtet werden, auch wenn sie nicht auf derselben Skala gemessen werden. In der Literatur zum nächsten Nachbarn werden jedoch häufig sowohl Spalten als auch Zeilen normalisiert. Was ist die Zeilennormalisierung für / warum Zeilen normalisieren? Wie wirkt sich das …
Ich habe 17 numerische und 5 binäre (0-1) Variablen mit 73 Beispielen in meinem Datensatz. Ich muss eine Clusteranalyse durchführen. Ich weiß, dass der Gower-Abstand eine gute Metrik für Datensätze mit gemischten Variablen ist. Aber ich konnte nicht verstehen , wie der Gower Abstand die Differenz zwischen berechnet Binärgrößen . …
Ich weiß nicht, welche Distanzfunktion zwischen Individuen bei nominalen (ungeordneten kategorialen) Attributen verwendet werden soll. Ich habe ein Lehrbuch gelesen und sie schlagen die Simple Matching- Funktion vor, aber einige Bücher schlagen vor, dass ich die nominalen in binäre Attribute ändern und den Jaccard- Koeffizienten verwenden sollte. Was ist jedoch, …
Ein Kollege hat eine Funktion sss und für unsere Zwecke ist es eine Blackbox. Die Funktion misst die Ähnlichkeit zweier Objekte.s(a,b)s(a,b)s(a,b) Wir wissen sicher, dass diese Eigenschaften hat:sss Die Ähnlichkeitswerte sind reelle Zahlen zwischen 0 und einschließlich 1. Nur die Objekte, die selbstidentisch sind, haben Punktzahlen von 1. Also impliziert …
Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).n×nn×nn \times nkkk Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)? Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem …
Ich habe in letzter Zeit viel über Dynamic Time Warping (DTW) gelesen. Ich bin sehr überrascht, dass es überhaupt keine Literatur zur Anwendung von DTW auf unregelmäßige Zeitreihen gibt, oder zumindest konnte ich sie nicht finden. Könnte mir jemand einen Hinweis auf etwas geben, das mit diesem Problem zusammenhängt, oder …
Ich bin kein Community-Ökologe, aber in diesen Tagen arbeite ich an Community-Ökologiedaten. Was ich, abgesehen von der Mathematik dieser Entfernungen, nicht verstehen konnte, sind die Kriterien für jede zu verwendende Entfernung und in welchen Situationen sie angewendet werden kann. Was ist zum Beispiel mit Zähldaten zu verwenden? Wie konvertiere ich …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.