Statistiken und Big Data distance

3

Was ist der Maximalwert der Kullback-Leibler (KL) -Divergenz?

Ich werde KL-Divergenz in meinem Python-Code verwenden und habe dieses Tutorial erhalten . In diesem Tutorial ist die Implementierung der KL-Divergenz recht einfach. kl = (model * np.log(model/actual)).sum() Soweit ich weiß, sollte die Wahrscheinlichkeitsverteilung von modelund actual<= 1 sein. Meine Frage ist, was ist die maximale Schranke / der maximal …

14 machine-learning distance kullback-leibler

1

Gibt es eine intuitive Charakterisierung der Distanzkorrelation?

Ich habe auf der Wikipedia-Seite nach Entfernungskorrelationen gestarrt, bei denen es darum zu gehen scheint, wie sie berechnet werden können. Während ich die Berechnungen durchführen konnte, kämpfe ich darum , welche Entfernungskorrelationsmaße und warum die Berechnungen so aussehen, wie sie aussehen. Gibt es eine (oder mehrere) intuitivere Charakterisierung der Entfernungskorrelation, …

14 correlation distance intuition distance-covariance

5

Wie kann ich Distanz (Euklidisch) in Ähnlichkeit umwandeln?

Ich benutze kkk bedeutet Clustering, um Lautsprecherstimmen zu gruppieren. Wenn ich eine Äußerung mit gruppierten Sprecherdaten vergleiche, erhalte ich eine (euklidische entfernungsbasierte) durchschnittliche Verzerrung. Dieser Abstand kann im Bereich von . Ich möchte diesen Abstand in einen Ähnlichkeitswert umrechnen . Bitte leiten Sie mich, wie ich dies erreichen kann.[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

13 clustering k-means distance euclidean

4

Gibt es eine Wahrscheinlichkeitsentfernung, die alle Eigenschaften einer Metrik beibehält?

Bei der Untersuchung der Kullback-Leibler-Distanz lernen wir sehr schnell, dass sie weder die Dreiecksungleichung noch die Symmetrie berücksichtigt, die für eine Metrik erforderlich ist. Meine Frage ist, ob es eine Metrik von Wahrscheinlichkeitsdichtefunktionen gibt, die alle Bedingungen einer Metrik erfüllt .

13 distributions distance metric

2

Maximale mittlere Diskrepanz (Entfernungsverteilung)

Ich habe zwei Datensätze (Quell- und Zieldaten), die der unterschiedlichen Verteilung folgen. Ich verwende MMD - das ist eine nicht parametrische Entfernungsverteilung -, um die Randverteilung zwischen den Quell- und Zieldaten zu berechnen. Quelldaten, Xs Zieldaten, Xt Anpassungsmatrix A. * Projizierte Daten, Zs = A '* Xs und Zt = …

13 machine-learning distributions distance feature-construction domain-adaptation

1

Statistische Signifikanz von Entfernungsunterschieden

Ich habe über 3000 Vektoren in einem zweidimensionalen Gitter mit einer ungefähr gleichmäßigen diskreten Verteilung. Einige Vektorpaare erfüllen eine bestimmte Bedingung. Hinweis: die Bedingung nur anwendbar ist Paaren von Vektoren, nicht auf einzelne Vektoren. Ich habe eine Liste von ungefähr 1500 solcher Paare, nennen wir es Gruppe 1. Gruppe 2 …

12 statistical-significance t-test sample-size spatial distance

4

Ist die Dreiecksungleichung für diese korrelationsbasierten Abstände erfüllt?

Für hierarchische Cluster sehe ich oft die folgenden zwei "Metriken" (sie sprechen nicht genau dafür), um den Abstand zwischen zwei Zufallsvariablen XXX und : Tut entweder Erfüllt man die Dreiecksungleichung? Wenn ja, wie soll ich es beweisen, anstatt nur eine Bruteforce-Berechnung durchzuführen? Was ist ein einfaches Gegenbeispiel, wenn es sich …

12 correlation clustering distance metric

2

Wie groß ist der Abstand zwischen einer endlichen Gaußschen Mischung und einer Gaußschen?

Angenommen, ich habe eine Mischung aus endlich vielen Gaußschen mit bekannten Gewichten, Mittelwerten und Standardabweichungen. Die Mittel sind nicht gleich. Der Mittelwert und die Standardabweichung des Gemisches können natürlich berechnet werden, da die Momente gewichtete Mittelwerte der Momente der Komponenten sind. Die Mischung ist keine Normalverteilung, aber wie weit ist …

12 normal-distribution mixture distance

4

Was ist der Zweck der Zeilennormalisierung?

Ich verstehe die Gründe für die Spaltennormalisierung, da dadurch Merkmale gleich gewichtet werden, auch wenn sie nicht auf derselben Skala gemessen werden. In der Literatur zum nächsten Nachbarn werden jedoch häufig sowohl Spalten als auch Zeilen normalisiert. Was ist die Zeilennormalisierung für / warum Zeilen normalisieren? Wie wirkt sich das …

12 normalization distance similarities k-nearest-neighbour

2

Wie berechnet der Gower-Abstand die Differenz zwischen binären Variablen?

Ich habe 17 numerische und 5 binäre (0-1) Variablen mit 73 Beispielen in meinem Datensatz. Ich muss eine Clusteranalyse durchführen. Ich weiß, dass der Gower-Abstand eine gute Metrik für Datensätze mit gemischten Variablen ist. Aber ich konnte nicht verstehen , wie der Gower Abstand die Differenz zwischen berechnet Binärgrößen . …

12 clustering distance mixed-type-data

1

Was ist die optimale Distanzfunktion für Personen, wenn Attribute nominal sind?

Ich weiß nicht, welche Distanzfunktion zwischen Individuen bei nominalen (ungeordneten kategorialen) Attributen verwendet werden soll. Ich habe ein Lehrbuch gelesen und sie schlagen die Simple Matching- Funktion vor, aber einige Bücher schlagen vor, dass ich die nominalen in binäre Attribute ändern und den Jaccard- Koeffizienten verwenden sollte. Was ist jedoch, …

12 distance-functions distance similarities association-measure categorical-data

2

Funktioniert der Satz von Mercer umgekehrt?

Ein Kollege hat eine Funktion sss und für unsere Zwecke ist es eine Blackbox. Die Funktion misst die Ähnlichkeit zweier Objekte.s(a,b)s(a,b)s(a,b) Wir wissen sicher, dass diese Eigenschaften hat:sss Die Ähnlichkeitswerte sind reelle Zahlen zwischen 0 und einschließlich 1. Nur die Objekte, die selbstidentisch sind, haben Punktzahlen von 1. Also impliziert …

11 kernel-trick distance similarities rbf-kernel

2

Was sind die Abstände zwischen Variablen, die eine Kovarianzmatrix bilden?

Ich habe eine Kovarianzmatrix und möchte Variablen mithilfe hierarchischer Cluster in k Cluster aufteilen (zum Beispiel um eine Kovarianzmatrix zu sortieren).n×nn×nn \times nkkk Gibt es eine typische Abstandsfunktion zwischen Variablen (dh zwischen Spalten / Zeilen der quadratischen Kovarianzmatrix)? Oder wenn es mehr gibt, gibt es eine gute Referenz zu diesem …

11 clustering covariance distance-functions distance

4

Dynamic Time Warping für unregelmäßige Zeitreihen

Ich habe in letzter Zeit viel über Dynamic Time Warping (DTW) gelesen. Ich bin sehr überrascht, dass es überhaupt keine Literatur zur Anwendung von DTW auf unregelmäßige Zeitreihen gibt, oder zumindest konnte ich sie nicht finden. Könnte mir jemand einen Hinweis auf etwas geben, das mit diesem Problem zusammenhängt, oder …

10 time-series correlation distance unevenly-spaced-time-series

3

Welchen Abstand soll man benutzen? zB Manhattan, Euklidisch, Bray-Curtis usw.

Ich bin kein Community-Ökologe, aber in diesen Tagen arbeite ich an Community-Ökologiedaten. Was ich, abgesehen von der Mathematik dieser Entfernungen, nicht verstehen konnte, sind die Kriterien für jede zu verwendende Entfernung und in welchen Situationen sie angewendet werden kann. Was ist zum Beispiel mit Zähldaten zu verwenden? Wie konvertiere ich …

10 distance euclidean

Als «distance» getaggte Fragen