Dieser Ansatz kann irreführend sein, und deshalb.
Das Streudiagramm kann Ihnen etwas über die Verteilung jeder Variablen sagen. Das Streudiagramm sagt aber auch etwas über die Beziehung zwischen zwei Variablen aus, was zu Problemen führen kann, wenn man nur eine der Variablen interpretiert, z. B. die Schiefe interpretiert.
Nehmen wir einige Daten mit Heteroskedastizität an, bei denen y keine negativen Werte hat (wie in Ihrem Beispiel). Das resultierende Diagramm könnte folgendermaßen aussehen:
Das resultierende Diagramm sieht dem bereitgestellten Diagramm relativ nahe und das Diagramm legt nahe, dass x verzerrt ist, obwohl dies tatsächlich nicht der Fall ist, da x eine gleichmäßige Verteilung aufweist (siehe Code für die Datengenerierung unten), wie das Histogramm für x zeigt:
Somit kann die Beziehung zwischen den Variablen zu einem irreführenden Streudiagramm hinsichtlich der Interpretation der Verteilung einer Variablen führen.
Der Code, den ich für die Handlung verwendet habe:
set.seed(568)
x = rep(1:10000,2)
a <- 20000
b = -2
sigma2 = x^2
eps = rnorm(x,mean=0,sd= rev(sqrt(sigma2))) # heteroscedasticity
y = a + b*x + eps
y[y<0] <- -y[y<0] # no negative values in y
plot(x, y)
EDIT: Ich stimme Ben zu, dass die Transparenz und das Überzeichnen in diesem Fall wichtig sind, und deshalb wähle ich für mein Beispiel eine so große Stichprobengröße. Die Verwendung von Transparenz für dieselben Daten ist weniger irreführend.
plot(x, y, col = alpha("black", 0.05))
rug
den Achsen ein hinzufügen , um hier einige Einblicke zu erhalten. Siehe?rug
. Scatterplots sind selbst nicht ideal , wenn Schiefe ist alles Sie kümmern uns um - Scatterplots sind Multi-Dimension (x & y) aber Schiefe (AFAIK) nur definiert für die eindimensionale RV (dh es für x definiert ist und für y , aber nicht (x , y))