Wir haben zwei Variablen gemessen und das Streudiagramm scheint mehrere "lineare" Modelle nahezulegen. Gibt es eine Möglichkeit, diese Modelle zu destillieren? Es hat sich als schwierig erwiesen, andere unabhängige Variablen zu identifizieren.
Beide Variablen sind stark nach links verschoben (in Richtung der kleinen Zahlen), dies ist eine erwartete Verteilung in unserer Domäne. Die Intensität des Punktes repräsentiert die Anzahl der Datenpunkte (auf einer Skala) bei diesem .
Gibt es alternativ eine Möglichkeit, die Punkte zu gruppieren?
Auf unserem Gebiet wird behauptet, dass diese beiden Variablen linear korrelieren. Wir versuchen zu verstehen / zu erklären, warum dies in unseren Daten nicht der Fall ist.
(Beachten Sie, wir haben 17M Datenpunkte)
Update: Vielen Dank für alle Antworten, hier sind einige angeforderte Erläuterungen:
- Beide Variablen sind nur Ganzzahlen, was einige der Muster im Protokollstreudiagramm erklärt.
- Glücklicherweise ist per Definition der Minimalwert beider Variablen 1.
- 7M Punkte liegen bei ("erklärt" durch die Linksschiefe der Daten)
Hier sind die angeforderten Grundstücke:
Log-Log-Streudiagramm:
(Die Leerzeichen werden durch die ganzzahligen Werte verursacht.)
log-log polar:
Histogramm des Verhältnisses:
Die Frequenz liegt auf einer logarithmischen Skala, da der Balken 7M-Punkte beträgt und die anderen Balken ausblenden würde.