Statistiken und Big Data compositional-data

3

Durchführen einer Transformation des isometrischen Log-Verhältnisses

Ich habe Daten zum Bewegungsverhalten (Schlafenszeit, Bewegungsmangel und körperliche Aktivität), die sich auf ungefähr 24 belaufen (wie in Stunden pro Tag). Ich möchte eine Variable erstellen, die die relative Zeit erfasst, die für jedes dieser Verhalten aufgewendet wurde. Mir wurde mitgeteilt, dass eine Transformation des isometrischen Log-Verhältnisses dies bewirken würde. …

17 r multivariate-analysis data-transformation compositional-data

1

Was sind einige Verteilungen über den Wahrscheinlichkeitssimplex?

Sei der Wahrscheinlichkeitssimplex der Dimension , dh ist so, dass und .ΔKΔK\Delta_{K}K- 1K−1K-1x ≤ ΔKx∈ΔKx \in \Delta_{K}xich≥ 0xi≥0x_i \ge 0∑ichxich= 1∑ichxich=1\sum_i x_i = 1 Welche Distributionen, die häufig (oder bekannt oder in der Vergangenheit definiert) über existieren?ΔKΔK\Delta_{K} Natürlich gibt es die Distributionen Dirichlet und Logit-Normal. Gibt es andere Distributionen, die …

16 distributions multinomial compositional-data

2

Kann ich die CLR (Centered Log Ratio Transformation) verwenden, um Daten für PCA vorzubereiten?

Ich benutze ein Skript. Es ist für Kernaufzeichnungen. Ich habe einen Datenrahmen, der die verschiedenen Elementzusammensetzungen in den Spalten über eine gegebene Tiefe (in der ersten Spalte) zeigt. Ich möchte damit eine PCA durchführen und bin verwirrt über die zu wählende Standardisierungsmethode. Hat jemand von euch das benutzt clr(), um …

13 r pca normalization compositional-data

3

Muss ich korrelierte / kollineare Variablen löschen, bevor ich kmeans laufen lasse?

Ich laufe Kilometer, um Kundencluster zu identifizieren. Ich habe ungefähr 100 Variablen, um Cluster zu identifizieren. Jede dieser Variablen gibt den Prozentsatz der Ausgaben eines Kunden für eine Kategorie an. Wenn ich also 100 Kategorien habe, habe ich diese 100 Variablen, sodass die Summe dieser Variablen für jeden Kunden 100% …

13 clustering data-mining k-means multicollinearity compositional-data

2

Clustering von sehr verzerrten Zähldaten: Gibt es Vorschläge (Transformation usw.)?

Grundproblem Hier ist mein grundlegendes Problem: Ich versuche, einen Datensatz zu gruppieren, der einige sehr verzerrte Variablen mit Zählungen enthält. Die Variablen enthalten viele Nullen und sind daher für mein Clustering-Verfahren - das wahrscheinlich ein k-means-Algorithmus ist - nicht sehr informativ. Gut, sagen Sie, transformieren Sie die Variablen einfach mit …

11 clustering data-transformation k-means count-data compositional-data

4

Warum ist es nicht in Ordnung, eine Pearson-Korrelation für Proportionsdaten durchzuführen?

Ein Online-Modul, das ich studiere, besagt, dass man niemals die Pearson-Korrelation mit Proportionsdaten verwenden sollte. Warum nicht? Oder wenn es manchmal in Ordnung oder immer in Ordnung ist, warum?

10 correlation proportion compositional-data

4

Welchen Test, um die Zusammensetzung der Community zu vergleichen?

Hoffe, diese Neuling-Frage ist die richtige Frage für diese Seite: Angenommen, ich möchte die Zusammensetzung der ökologischen Gemeinschaften an zwei Standorten A, B vergleichen. Ich weiß, dass alle drei Standorte Hunde, Katzen, Kühe und Vögel haben, also probiere ich ihre Häufigkeit an jedem Standort aus (ich habe nicht wirklich einen …

10 hypothesis-testing distributions correlation multinomial compositional-data

1

Probleme mit der Vorhersage von Zeitreihen

Ich habe eine Frage zur Modellierung von Zeitreihen in R. Meine Daten bestehen aus der folgenden Matrix: 1 0.03333333 0.01111111 0.9555556 2 0.03810624 0.02309469 0.9387991 3 0.00000000 0.03846154 0.9615385 4 0.03776683 0.03119869 0.9310345 5 0.06606607 0.01201201 0.9219219 6 0.03900325 0.02058505 0.9404117 7 0.03125000 0.01562500 0.9531250 8 0.00000000 0.00000000 1.0000000 9 …

8 r time-series forecasting compositional-data

3

Warum wird die isometrische Log-Ratio-Transformation gegenüber dem Additiv (alr) oder der zentrierten (clr) mit Zusammensetzungsdaten bevorzugt?

Ich mache eine lineare Regression für Kompositionsdaten unter Verwendung der Log-Ratio-Transformation mit Volkszählungsdaten. Die IVs sind zusammengesetzt (Prozent summiert sich auf 100). Der DV ist nicht kompositorisch und kontinuierlich. Die alr- und clr-Ergebnisse lassen sich leichter interpretieren. Sie alle erzeugen das gleiche Maß an Passform. Ich bin geneigt, mit alr …

8 regression compositional-data

Als «compositional-data» getaggte Fragen