Statistiken und Big Data similarities

6

Prozentsatz der überlappenden Bereiche zweier Normalverteilungen

Ich wunderte mich, zwei Normalverteilungen mit undσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Wie kann ich den Prozentsatz überlappender Bereiche zweier Verteilungen berechnen? Ich nehme an, dieses Problem hat einen bestimmten Namen. Kennen Sie einen bestimmten Namen, der dieses Problem beschreibt? Ist Ihnen eine Implementierung davon bekannt (z. …

46 normal-distribution similarities metric bhattacharyya

2

Hierarchisches Clustering mit gemischten Datentypen - Welche Entfernung / Ähnlichkeit ist zu verwenden?

In meinem Datensatz haben wir sowohl kontinuierliche als auch natürlich diskrete Variablen. Ich möchte wissen, ob wir hierarchisches Clustering mit beiden Variablentypen durchführen können. Und wenn ja, welches Entfernungsmaß ist angemessen?

34 clustering similarities distance-functions mixed-type-data

1

Vergleich hierarchischer Cluster-Dendrogramme, die mit unterschiedlichen Entfernungen und Methoden erhalten wurden

[Der ursprüngliche Titel "Ähnlichkeitsmessung für hierarchische Clusterbäume" wurde später von @ttnphns geändert, um das Thema besser widerzuspiegeln.] Ich führe eine Reihe von hierarchischen Clusteranalysen für einen Datenrahmen von Patientenakten durch (z. B. ähnlich wie http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ). Ich experimentiere mit verschiedenen Distanzmaßen , verschiedenen Parametergewichten und verschiedenen hierarchischen Methoden , um …

28 r clustering distance-functions similarities dendrogram

1

Umwandlung der Ähnlichkeitsmatrix in eine (euklidische) Distanzmatrix

In Random Forest-Algorithmus erstellt Breiman (Autor) eine Ähnlichkeitsmatrix wie folgt: Senden Sie alle Lernbeispiele an jeden Baum im Wald Wenn zwei Beispiele im selben Blatt landen, erhöhen Sie das entsprechende Element in der Ähnlichkeitsmatrix um 1 Normalisieren Sie die Matrix mit der Anzahl der Bäume Er sagt: Die Ähnlichkeiten zwischen …

27 random-forest distance similarities euclidean

2

Ähnlichkeitskoeffizienten für Binärdaten: Warum Jaccard anstelle von Russell und Rao?

Aus der Encyclopedia of Statistical Sciences geht hervor , dass wir bei dichotomen (binär: 1 = vorhanden; 0 = nicht vorhanden) Attributen (Variablen) eine Kontingenztabelle für zwei beliebige Objekte i und j einer Stichprobe bilden können:ppp j 1 0 ------- 1 | a | b | i ------- 0 | …

20 binary-data similarities association-measure

5

Gibt es eine R-Funktion, die die Cosinus-Unähnlichkeitsmatrix berechnet? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen im vergangenen Jahr . Ich möchte eine Heatmap mit Zeilenclustering basierend auf Kosinusabständen erstellen. Ich benutze R und heatmap.2()um …

19 r clustering similarities

5

Ähnlichkeitsmaße zwischen Kurven?

Ich möchte das Ähnlichkeitsmaß zwischen zwei geordneten Punktmengen berechnen - die unter Benutzer im Vergleich zu den unter Lehrer : Die Punkte sind Kurven im 3D-Raum, aber ich dachte, dass sich das Problem vereinfacht, wenn ich sie wie im Bild in zwei Dimensionen zeichne. Wenn sich die Punkte überlappen, sollte …

17 multiple-comparisons similarities curves procrustes-analysis

3

Euklidische Distanzbewertung und Ähnlichkeit

Ich arbeite gerade mit dem Buch Collective Intelligence (von Toby Segaran) und bin auf die euklidische Distanz-Bewertung gestoßen. In dem Buch zeigt der Autor, wie die Ähnlichkeit zwischen zwei Empfehlungsarrays (dh berechnet wird .person×movie↦score)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) Er berechnet den euklidischen Abstand für zwei Personen und p 2 durch …

13 distance-functions similarities

3

Quantifizierung der Ähnlichkeit zwischen zwei Datensätzen

Zusammenfassung : Der Versuch, die beste Methode zu finden, fasst die Ähnlichkeit zwischen zwei ausgerichteten Datensätzen mit einem einzigen Wert zusammen. Details : Meine Frage lässt sich am besten mit einem Diagramm erklären. Die folgenden Grafiken zeigen zwei verschiedene Datensätze mit den Werten nfund nr. Die Punkte entlang der x-Achse …

12 similarities

4

Was ist der Zweck der Zeilennormalisierung?

Ich verstehe die Gründe für die Spaltennormalisierung, da dadurch Merkmale gleich gewichtet werden, auch wenn sie nicht auf derselben Skala gemessen werden. In der Literatur zum nächsten Nachbarn werden jedoch häufig sowohl Spalten als auch Zeilen normalisiert. Was ist die Zeilennormalisierung für / warum Zeilen normalisieren? Wie wirkt sich das …

12 normalization distance similarities k-nearest-neighbour

1

Was ist die optimale Distanzfunktion für Personen, wenn Attribute nominal sind?

Ich weiß nicht, welche Distanzfunktion zwischen Individuen bei nominalen (ungeordneten kategorialen) Attributen verwendet werden soll. Ich habe ein Lehrbuch gelesen und sie schlagen die Simple Matching- Funktion vor, aber einige Bücher schlagen vor, dass ich die nominalen in binäre Attribute ändern und den Jaccard- Koeffizienten verwenden sollte. Was ist jedoch, …

12 distance-functions distance similarities association-measure categorical-data

2

Funktioniert der Satz von Mercer umgekehrt?

Ein Kollege hat eine Funktion sss und für unsere Zwecke ist es eine Blackbox. Die Funktion misst die Ähnlichkeit zweier Objekte.s(a,b)s(a,b)s(a,b) Wir wissen sicher, dass diese Eigenschaften hat:sss Die Ähnlichkeitswerte sind reelle Zahlen zwischen 0 und einschließlich 1. Nur die Objekte, die selbstidentisch sind, haben Punktzahlen von 1. Also impliziert …

11 kernel-trick distance similarities rbf-kernel

2

Maschinelles Lernen zum Lernen von Zeichenfolgenmustern

Ich habe eine Liste von Wörtern, die zu verschiedenen selbst definierten Kategorien gehören. Jede Kategorie hat ein eigenes Muster (zum Beispiel hat eine eine feste Länge mit Sonderzeichen, eine andere besteht aus Zeichen, die nur in dieser Kategorie von "Wörtern" vorkommen, ...). Zum Beispiel: "ABC" -> type1 "ACC" -> type1 …

11 machine-learning classification similarities supervised-learning

1

Was ist der Unterschied zwischen Würfel-, Jaccard- und Überlappungskoeffizienten? [geschlossen]

Geschlossen . Diese Frage erfordert Details oder Klarheit . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Fügen Sie Details hinzu und klären Sie das Problem, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ich stoße auf drei verschiedene statistische Maße, um zwei Sätze zu …

11 machine-learning similarities dice segmentation jaccard-similarity

1

Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?

Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

Als «similarities» getaggte Fragen