Eine Metrik ist eine Funktion, die einen Abstand zwischen zwei Elementen einer Menge ausgibt und bestimmte strenge Kriterien erfüllt (einige 'Distanz'-Funktionen sind keine Metriken).
Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie …
Ich wunderte mich, zwei Normalverteilungen mit undσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Wie kann ich den Prozentsatz überlappender Bereiche zweier Verteilungen berechnen? Ich nehme an, dieses Problem hat einen bestimmten Namen. Kennen Sie einen bestimmten Namen, der dieses Problem beschreibt? Ist Ihnen eine Implementierung davon bekannt (z. …
Ich habe einige Definitionen von Rückruf und Genauigkeit gelesen, obwohl dies jedes Mal im Zusammenhang mit dem Abrufen von Informationen geschieht. Ich habe mich gefragt, ob jemand dies in einem Klassifizierungskontext etwas genauer erklären und vielleicht einige Beispiele veranschaulichen könnte. Angenommen, ich habe einen binären Klassifikator, der eine Genauigkeit von …
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
Was ist der praktische Unterschied zwischen der Wasserstein-Metrik und der Kullback-Leibler-Divergenz ? Die Wasserstein-Metrik wird auch als Erdbewegungsdistanz bezeichnet . Aus Wikipedia: Wasserstein-Metrik (oder Vaserstein-Metrik) ist eine Abstandsfunktion, die zwischen Wahrscheinlichkeitsverteilungen auf einem gegebenen Metrikraum M definiert ist. und Die Kullback-Leibler-Divergenz ist ein Maß dafür, wie eine Wahrscheinlichkeitsverteilung von einer …
Ist es möglich, die Kosten einer Fehlklassifizierung im R-Paket randomForest zu kontrollieren ? In meiner eigenen Arbeit sind falsch negative Ergebnisse (z. B. das Fehlen einer Krankheit) weitaus kostspieliger als falsch positive Ergebnisse. Das Paket rpart ermöglicht es dem Benutzer, Fehlklassifizierungskosten zu kontrollieren, indem eine Verlustmatrix angegeben wird, um Fehlklassifizierungen …
Ich habe mich gefragt, ob jemand einen Einblick oder eine Intuition hinter dem Unterschied zwischen der Variation of Information und dem Rand-Index zum Vergleichen von Clusterings hat. Ich habe den Artikel " Clustering - An Information Based Distance " von Marina Melia (Journal of Multivariate Analysis, 2007) gelesen , aber …
Die Kullback-Leibler-Divergenz ist eine Metrik zum Vergleichen von zwei Wahrscheinlichkeitsdichtefunktionen, aber welche Metrik wird zum Vergleichen von zwei GPs XXX und YYY ?
Bei der Untersuchung der Kullback-Leibler-Distanz lernen wir sehr schnell, dass sie weder die Dreiecksungleichung noch die Symmetrie berücksichtigt, die für eine Metrik erforderlich ist. Meine Frage ist, ob es eine Metrik von Wahrscheinlichkeitsdichtefunktionen gibt, die alle Bedingungen einer Metrik erfüllt .
Ich weiß, dass die KL-Divergenz nicht symmetrisch ist und nicht streng als Metrik betrachtet werden kann. Wenn ja, warum wird es verwendet, wenn JS Divergence die erforderlichen Eigenschaften für eine Metrik erfüllt? Gibt es Szenarien, in denen KL-Divergenz verwendet werden kann, nicht jedoch JS-Divergenz oder umgekehrt?
Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen XXX und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich …
Was sind die "besten" Metriken für Kovarianzmatrizen und warum? Mir ist klar, dass Frobenius & c nicht geeignet sind und Winkelparametrisierungen auch ihre Probleme haben. Intuitiv möchte man vielleicht einen Kompromiss zwischen diesen beiden, aber ich würde auch gerne wissen, ob es andere Aspekte zu beachten gibt und vielleicht gut …
Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …
Nehmen wir an, wir definieren einen Abstand zwischen N Elementen , der keine Metrik ist. Basierend auf dieser Entfernung verwenden wir dann ein agglomeratives hierarchisches Clustering . Können wir jeden der bekannten Algorithmen (Einzel- / Maximal- / Durchschnittsverknüpfung usw.) verwenden, um aussagekräftige Ergebnisse zu erzielen? Oder anders ausgedrückt, was ist …
Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird. Kürzlich habe ich zwei Artikel gelesen, in denen die …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.