Abstandsfunktionen beziehen sich auf Funktionen, die zum Quantifizieren des Abstandsbegriffs zwischen Elementen einer Menge oder zwischen Objekten verwendet werden.
Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie …
Wenn Sie die Clusteranalyse für einen Datensatz verwenden, um ähnliche Fälle zu gruppieren, müssen Sie aus einer Vielzahl von Clustermethoden und Entfernungsmaßen auswählen. Manchmal kann eine Wahl die andere beeinflussen, aber es gibt viele mögliche Kombinationen von Methoden. Hat jemand irgendwelche Empfehlungen, wie man unter den verschiedenen Clustering-Algorithmen / Methoden …
Gibt es einen bestimmten Zweck in Bezug auf Effizienz oder Funktionalität, warum der k-means-Algorithmus zum Beispiel keine Cosinus- (Dis-) Ähnlichkeit als Distanzmetrik verwendet, sondern nur die euklidische Norm verwenden kann? Wird die K-means-Methode im Allgemeinen eingehalten und korrekt sein, wenn andere Abstände als Euklidisch berücksichtigt oder verwendet werden? [Ergänzung von …
Angenommen, Sie erhalten zwei Objekte, deren genaue Position unbekannt ist, die jedoch gemäß Normalverteilungen mit bekannten Parametern verteilt sind (z. B. a∼N(m,s)ein∼N(m,s)a \sim N(m, s) und b∼N(v,t))b∼N(v,t))b \sim N(v, t)) . Wir können annehmen, dass dies beide bivariate Normalen sind, so dass die Positionen durch eine Verteilung über (x,y)(X,y)(x,y) Koordinaten …
Ich kann feststellen, dass es viele formale Unterschiede zwischen den Abstandsmaßen Kullback-Leibler und Kolmogorov-Smirnov gibt. Beide werden jedoch verwendet, um den Abstand zwischen Verteilungen zu messen. Gibt es eine typische Situation, in der einer anstelle des anderen verwendet werden sollte? Was ist der Grund dafür?
In meinem Datensatz haben wir sowohl kontinuierliche als auch natürlich diskrete Variablen. Ich möchte wissen, ob wir hierarchisches Clustering mit beiden Variablentypen durchführen können. Und wenn ja, welches Entfernungsmaß ist angemessen?
[Der ursprüngliche Titel "Ähnlichkeitsmessung für hierarchische Clusterbäume" wurde später von @ttnphns geändert, um das Thema besser widerzuspiegeln.] Ich führe eine Reihe von hierarchischen Clusteranalysen für einen Datenrahmen von Patientenakten durch (z. B. ähnlich wie http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ). Ich experimentiere mit verschiedenen Distanzmaßen , verschiedenen Parametergewichten und verschiedenen hierarchischen Methoden , um …
Ich suche nach einer guten Terminologie, um zu beschreiben, was ich versuche, um die Suche nach Ressourcen zu vereinfachen. Angenommen, ich habe zwei Cluster von Punkten A und B, die jeweils zwei Werten X und Y zugeordnet sind, und ich möchte den "Abstand" zwischen A und B messen, dh wie …
In einer Situation, in der man aus einer Verteilung mit der Dichte , frage ich mich, ob es einen unverzerrten Schätzer (basierend auf den ) für die Hellinger-Distanz zu einer anderen Verteilung mit der Dichte , nämlich X1,…,XnX1,…,XnX_1,\ldots,X_nX i f 0 H ( f , f 0 ) = { …
Ich habe einen Datensatz, bei dem jeder Datensatz aus verschiedenen Kennzahlen besteht. Für jede Kennzahl habe ich einen Richtwert. Ich würde gerne wissen, wie nahe die einzelnen Daten am Benchmarkwert liegen.nnn Ich dachte daran, die gewichtete euklidische Distanz wie folgt zu verwenden: dx , b= ( ∑ni = 1wich( xich- …
Ich bündele Wahrscheinlichkeitsverteilungen mit dem Affinitätsausbreitungsalgorithmus und plane, Jensen-Shannon-Divergenz als Distanzmetrik zu verwenden. Ist es richtig, JSD selbst als Distanz zu verwenden oder JSD im Quadrat? Warum? Welche Unterschiede würden sich aus der Wahl des einen oder anderen ergeben?
Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...], die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert: eine Distanzmatrix D Der Name der Methode, die zur Bestimmung der Cluster-Verknüpfung verwendet wird. Ich habe die Distanzmatrix D mit Manhattan-Distanz berechnet: d( x …
Verwendet jemand die Metriken L1L1L_1 oder L.5L.5L_.5 für das Clustering und nicht L2L2L_2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben Aggarwal et al. (2001) an, dass L1L1L_1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die euklidische Distanzmetrik L2L2L_2 und behauptete, dass oder noch besser kann.L.5L.5L_.5L.1L.1L_.1 Gründe für die …
Ich arbeite gerade mit dem Buch Collective Intelligence (von Toby Segaran) und bin auf die euklidische Distanz-Bewertung gestoßen. In dem Buch zeigt der Autor, wie die Ähnlichkeit zwischen zwei Empfehlungsarrays (dh berechnet wird .person×movie↦score)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) Er berechnet den euklidischen Abstand für zwei Personen und p 2 durch …
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.