Die Untersuchung der Beziehungen zwischen Variablen ist ziemlich vage, aber zwei der allgemeineren Ziele bei der Untersuchung solcher Streudiagramme sind vermutlich;
- Identifizieren Sie zugrunde liegende latente Gruppen (von Variablen oder Fällen).
- Identifizieren Sie Ausreißer (im univariaten, bivariaten oder multivariaten Bereich).
Beide reduzieren die Daten in verwaltbarere Zusammenfassungen, haben jedoch unterschiedliche Ziele. Identifizieren Sie latente Gruppen, die normalerweise die Dimensionen in den Daten reduzieren (z. B. über PCA), und untersuchen Sie dann, ob sich Variablen oder Fälle in diesem reduzierten Raum zusammenballen. Siehe zum Beispiel Friendly (2002) oder Cook et al. (1995).
Das Identifizieren von Ausreißern kann entweder das Anpassen eines Modells und das Zeichnen der Abweichungen vom Modell bedeuten (z. B. das Zeichnen von Residuen eines Regressionsmodells) oder das Reduzieren der Daten in ihre Hauptkomponenten und nur das Hervorheben von Punkten, die entweder vom Modell oder vom Hauptdatenbestand abweichen. Beispielsweise zeigen Boxplots in einer oder zwei Dimensionen normalerweise nur einzelne Punkte, die außerhalb der Scharniere liegen (Wickham & Stryjewski, 2013). Das Zeichnen von Residuen hat die nette Eigenschaft, dass es Diagramme abflachen sollte (Tukey, 1977), daher ist jeder Hinweis auf Beziehungen in der verbleibenden Punktwolke "interessant". Diese Frage zum Lebenslauf enthält einige hervorragende Vorschläge zur Identifizierung multivariater Ausreißer.
Ein üblicher Weg, um solch große SPLOMS zu untersuchen, besteht darin, nicht alle einzelnen Punkte zu zeichnen , sondern eine Art vereinfachte Zusammenfassung und dann möglicherweise Punkte, die stark von dieser Zusammenfassung abweichen, z. B. Vertrauensellipsen, skagnostische Zusammenfassungen (Wilkinson & Wills, 2008), bivariate Box-Plots, Konturdiagramme. Im Folgenden finden Sie ein Beispiel für das Zeichnen von Ellipsen, die die Kovarianz definieren, und das Überlagern eines Lössglätters, um die lineare Assoziation zu beschreiben.
(Quelle: statmethods.net )
In jedem Fall würde ein wirklich erfolgreicher, interaktiver Plot mit so vielen Variablen wahrscheinlich eine intelligente Sortierung (Wilkinson, 2005) und eine einfache Möglichkeit zum Herausfiltern von Variablen (zusätzlich zu den Funktionen zum Bürsten / Verknüpfen) erfordern. Außerdem müsste jeder realistische Datensatz die Fähigkeit haben, die Achse zu transformieren (z. B. die Daten auf logarithmischer Skala darstellen, die Daten durch Wurzeln transformieren usw.). Viel Glück und bleib nicht bei nur einer Verschwörung!
Zitate
- Koch, Dianne, Andreas Buja, Javier Cabrera und Catherine Hurley. 1995. Grand Tour und Projektionsverfolgung. Journal of Computational and Graphical Statistics 4 (3): 155-172.
- Freundlich, Michael. 2002. Corrgrams: Explorative Anzeigen für Korrelationsmatrizen. The American Statistician 56 (4): 316-324. PDF-Vorabdruck .
- Tukey, John. 1977. Explorative Datenanalyse. Addison-Wesley. Lesen, Messe.
- Wickham, Hadley & Lisa Stryjewski. 2013. 40 Jahre Boxplots .
- Wilkinson, Leland & Graham Wills. 2008. Skagnostische Verteilungen. Journal of Computational and Graphical Statistics 17 (2): 473-491.
- Wilkinson, Leland. 2005. Die Grammatik der Grafik . Springer. New York, NY.