Als «metric» getaggte Fragen

Eine Metrik ist eine Funktion, die einen Abstand zwischen zwei Elementen einer Menge ausgibt und bestimmte strenge Kriterien erfüllt (einige 'Distanz'-Funktionen sind keine Metriken).

8
Warum ist der euklidische Abstand in hohen Dimensionen keine gute Metrik?
Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie …

6
Prozentsatz der überlappenden Bereiche zweier Normalverteilungen
Ich wunderte mich, zwei Normalverteilungen mit undσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Wie kann ich den Prozentsatz überlappender Bereiche zweier Verteilungen berechnen? Ich nehme an, dieses Problem hat einen bestimmten Namen. Kennen Sie einen bestimmten Namen, der dieses Problem beschreibt? Ist Ihnen eine Implementierung davon bekannt (z. …

4
Rückruf und Präzision in der Klassifizierung
Ich habe einige Definitionen von Rückruf und Genauigkeit gelesen, obwohl dies jedes Mal im Zusammenhang mit dem Abrufen von Informationen geschieht. Ich habe mich gefragt, ob jemand dies in einem Klassifizierungskontext etwas genauer erklären und vielleicht einige Beispiele veranschaulichen könnte. Angenommen, ich habe einen binären Klassifikator, der eine Genauigkeit von …

1
Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Was sind die Vorteile der Wasserstein-Metrik gegenüber der Kullback-Leibler-Divergenz?
Was ist der praktische Unterschied zwischen der Wasserstein-Metrik und der Kullback-Leibler-Divergenz ? Die Wasserstein-Metrik wird auch als Erdbewegungsdistanz bezeichnet . Aus Wikipedia: Wasserstein-Metrik (oder Vaserstein-Metrik) ist eine Abstandsfunktion, die zwischen Wahrscheinlichkeitsverteilungen auf einem gegebenen Metrikraum M definiert ist. und Die Kullback-Leibler-Divergenz ist ein Maß dafür, wie eine Wahrscheinlichkeitsverteilung von einer …

5
Wie kann man die Kosten einer Fehlklassifizierung in zufälligen Wäldern kontrollieren?
Ist es möglich, die Kosten einer Fehlklassifizierung im R-Paket randomForest zu kontrollieren ? In meiner eigenen Arbeit sind falsch negative Ergebnisse (z. B. das Fehlen einer Krankheit) weitaus kostspieliger als falsch positive Ergebnisse. Das Paket rpart ermöglicht es dem Benutzer, Fehlklassifizierungskosten zu kontrollieren, indem eine Verlustmatrix angegeben wird, um Fehlklassifizierungen …






2
Metriken für Kovarianzmatrizen: Nachteile und Stärken
Was sind die "besten" Metriken für Kovarianzmatrizen und warum? Mir ist klar, dass Frobenius & c nicht geeignet sind und Winkelparametrisierungen auch ihre Probleme haben. Intuitiv möchte man vielleicht einen Kompromiss zwischen diesen beiden, aber ich würde auch gerne wissen, ob es andere Aspekte zu beachten gibt und vielleicht gut …

1
Clustering Trägheitsformel in Scikit lernen
Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …

2
Muss eine Entfernung eine „Metrik“ sein, damit ein hierarchisches Clustering darauf gültig ist?
Nehmen wir an, wir definieren einen Abstand zwischen N Elementen , der keine Metrik ist. Basierend auf dieser Entfernung verwenden wir dann ein agglomeratives hierarchisches Clustering . Können wir jeden der bekannten Algorithmen (Einzel- / Maximal- / Durchschnittsverknüpfung usw.) verwenden, um aussagekräftige Ergebnisse zu erzielen? Oder anders ausgedrückt, was ist …

3
Verwenden von k-means mit anderen Metriken
Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird. Kürzlich habe ich zwei Artikel gelesen, in denen die …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.