EDIT: Da diese Frage aufgeblasen wurde, eine Zusammenfassung: Finden verschiedener aussagekräftiger und interpretierbarer Datensätze mit derselben gemischten Statistik (Mittelwert, Median, Mittlerer Bereich und die damit verbundenen Streuungen und Regressionen).
Das Anscombe Quartett (siehe ? Purpose hoher Abmessungsdaten zu visualisieren ) ist ein bekanntes Beispiel von vier - Datensätzen mit dem gleichen Rand Mittelwert / Standardabweichung (auf der vier und die vier , getrennt) und die gleiche OLS linear fit , Regression und Restsumme der Quadrate und Korrelationskoeffizient . Die Statistiken vom Typ (Rand und Gelenk) sind also gleich, während die Datensätze sehr unterschiedlich sind.y x y≤ 2
BEARBEITEN (aus OP-Kommentaren) Lassen Sie die kleine Datenmenge auseinander und lassen Sie mich einige Interpretationen vorschlagen. Satz 1 kann als eine standardmäßige lineare (affine, korrekte) Beziehung zum verteilten Rauschen angesehen werden. Satz 2 zeigt eine saubere Beziehung, die der Höhepunkt einer Anpassung höheren Grades sein könnte. Satz 3 zeigt eine klare lineare statistische Abhängigkeit mit einem Ausreißer. Satz 4 ist kniffliger: Der Versuch, aus "vorherzusagen", scheint mit einem Scheitern verbunden zu sein. Das Design von kann ein Hysterese-Phänomen mit einem unzureichenden Wertebereich, einen Quantisierungseffekt (das könnte zu stark quantisiert sein) oder einen Wechsel der abhängigen und unabhängigen Variablen durch den Benutzer aufweisen.x x x
Daher verbergen Zusammenfassungsfunktionen sehr unterschiedliche Verhaltensweisen. Satz 2 könnte besser mit einer Polynomanpassung behandelt werden. Set 3 mit Methoden ( oder ähnliches) sowie Set 4. Man könnte sich fragen, ob andere Kostenfunktionen oder Diskrepanzindikatoren die Unterscheidung zwischen regeln oder zumindest verbessern könnten. BEARBEITEN (aus OP-Kommentaren): In dem Blog-Beitrag Curious Regressions heißt es:ℓ 1
Übrigens habe ich erfahren, dass Frank Anscombe nie verraten hat, wie er auf diese Datensätze gekommen ist. Wenn Sie der Meinung sind, dass es eine leichte Aufgabe ist, alle zusammenfassenden Statistiken und die Regressionsergebnisse gleich zu erhalten, probieren Sie es aus!
In Datensätzen, die für einen ähnlichen Zweck wie das Quartett von Anscombe erstellt wurden , werden mehrere interessante Datensätze angegeben, beispielsweise mit denselben quantilbasierten Histogrammen. Ich habe keine Mischung aus aussagekräftigen Beziehungen und gemischten Statistiken gesehen.
Meine Frage ist: Gibt es bivariate (oder trivariate, um die Visualisierung aufrechtzuerhalten) Anscombe-ähnliche Datensätze, so dass zusätzlich zu den gleichen Statistiken :
- Ihre Diagramme können als Beziehung zwischen und interpretiert werden , als ob man nach einem Gesetz zwischen Messungen suchen würde.y
- Sie besitzen die gleichen (robusteren) (gleicher Median und Median der absoluten Abweichung).
- Sie haben die gleichen Begrenzungsrahmen: min, max (und daher type Mid- und Mid-Span-Statistiken).
Solche Datensätze hätten die gleichen "Box-and-Whiskers" -Diagrammzusammenfassungen (mit min, max, median, medianer absoluter Abweichung / MAD, Mittelwert und Standard) für jede Variable und wären in der Interpretation immer noch sehr unterschiedlich.
Noch interessanter wäre es, wenn für die Datensätze die geringste absolute Regression gleich wäre (aber vielleicht frage ich bereits zu viel). Sie könnten als Einschränkung dienen, wenn es um robuste oder nicht robuste Regression geht, und dabei helfen, Richard Hammings Zitat zu berücksichtigen:
Der Zweck des Rechnens ist Einsicht, nicht Zahlen
BEARBEITEN (aus OP-Kommentaren) Ähnliche Probleme werden bei der Generierung von Daten mit identischen Statistiken, aber unterschiedlichen Grafiken , Sangit Chatterjee & Aykut Firata, The American Statistician, 2007, oder beim Klonen von Daten behandelt: Generieren von Datensätzen mit genau derselben multiplen linearen Regressionsanpassung, J. Aust. N.-Z. Stat. J. 2009.
In Chatterjee (2007) besteht der Zweck darin, neue Paare mit den gleichen Mitteln und Standardabweichungen vom ursprünglichen Datensatz zu generieren und gleichzeitig die verschiedenen Zielfunktionen "Diskrepanz / Unähnlichkeit" zu maximieren. Da diese Funktionen nicht konvex oder nicht differenzierbar sein können, verwenden sie genetische Algorithmen (GA). Wichtige Schritte bestehen in der Orthonormalisierung, die mit der Erhaltung des Mittelwerts und der (Einheits-) Varianz sehr konsistent ist. Die Zahlen des Papiers (die Hälfte des Papierinhalts) überlagern Eingabe- und GA-Ausgabedaten. Meiner Meinung nach verlieren GA-Ausgänge viel von der ursprünglichen intuitiven Interpretation.
Und technisch gesehen , weder der Median noch die Mitteltöner erhalten bleibt, und das Papier nicht Renormierung Verfahren erwähnen , das erhalten würde , und Statistiken.l 1 l ∞