Da die Varianz in einer Zählung oder Proportion tendenziell proportional zur Zählung oder Proportion selbst ist, schlagen Theorie (und viel Erfahrung) vor, die Quadratwurzeln der Daten zu analysieren.
Überzeugen Sie sich selbst, indem Sie die Proportionen und Gesamtzahlen auf Quadratwurzelachsen zeichnen.
Damit jede Spalte eine visuelle Wirkung hat, die direkt proportional zur Anzahl ist, die sie darstellt, sind die Spaltenbreiten (sowie ihre Höhen) auch proportional zu den Quadratwurzeln der Anzahl: Dadurch werden die Bereiche der Spalten direkt proportional zur Anzahl. Die Spalten sind nur leicht gezeichnet, da sie für diese Visualisierung der Proportionen von zweitrangigem Interesse sind , wie der Titel besagt.
Die scheinbar zufällige Variation von Punkten (die die Proportionen darstellen) um ihre Glätte (dargestellt als blaue Linie) sowie die ungefähre Symmetrie dieser Variation um die Glätte herum bestätigen die Angemessenheit der Quadratwurzelskala. Sie legen auch nahe, dass eine differenziertere Analyse der zeitlichen Korrelation nicht erforderlich ist: Sie können sicher sein, dass die Trends, die Sie in diesem Diagramm sehen, real sind. Sie zeigen ein subtileres Bild als in der Frage vorgeschlagen: Die Proportionen nehmen zu, aber nur in den ersten sieben Jahren.
Das Erstellen eines solchen kombinierten Diagramms kann in Excel oder Stata erfolgen, ist jedoch in beiden Programmen schwierig, pingelig und zeitaufwändig. Dieses Beispiel wurde mit dem ggplot2
Paket in R
(Version 3.4.0) erstellt.
Zur Veranschaulichung des Prozesses finden Sie hier den vollständigen R
Code.
library(ggplot2)
X <- data.frame(Year=2003:2016,
Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
All=c(3007,5200,6000,5900,6740,7070,7120,
7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
fill="#ffffe0", alpha=0.75, color="Gray") +
geom_smooth(size=1.25) +
geom_point(size=2) +
ylab("All") +
scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")