Welche Aspekte des „Iris“ -Datensatzes machen ihn als Beispiel- / Lehr- / Testdatensatz so erfolgreich

Der "Iris" -Datensatz ist den meisten hier wohl bekannt - er ist einer der kanonischen Testdatensätze und ein Beispieldatensatz für alles von der Datenvisualisierung bis zum maschinellen Lernen. Zum Beispiel wurde es von allen in dieser Frage für eine Diskussion der durch die Behandlung getrennten Streudiagramme verwendet.

Was macht den Iris- Datensatz so nützlich? Nur dass es zuerst da war? Welche Lehren könnten sie daraus ziehen, wenn jemand versuchen würde , ein nützliches Beispiel / einen Testdatensatz zu erstellen ?

dataset

— Fomite
quelle

Klein aber nicht trivial. Einfach aber herausfordernd. Reale Daten. Fischers Ruf, obwohl es nicht seine Daten sind. Tradition. Trägheit. Kontinuität. Sie können Blumenbilder finden, um es zu formulieren.

— Nick Cox

Und jetzt läuft es wie am Schnürchen.

— Michael M

Ich würde sagen, @ NickCox ist genau richtig.

— Marc Claesen

@NickCox Möchtest du das als Antwort etwas erweitern?

— Fomite

Der 'Iris'-Datensatz kann zur Diskriminanzanalyse sowie zur unbeaufsichtigten Klassifizierung (modellbasiertes oder modellfreies Clustering) zu Veranschaulichungszwecken verwendet werden. Diese Frage verdient einen Querverweis auf Was sind gute Datensätze, um bestimmte Aspekte der statistischen Analyse zu veranschaulichen?

— chl

Antworten:

Der Iris- Datensatz wird in der gesamten Statistikwissenschaft zu Recht häufig verwendet, insbesondere zur Veranschaulichung verschiedener Probleme bei statistischen Grafiken, multivariaten Statistiken und maschinellem Lernen.

Mit 150 Beobachtungen ist es klein, aber nicht trivial.
Die Aufgabe, die darin besteht, drei Arten von Iris anhand ihrer Blüten- und Kelchblätter zu unterscheiden, ist einfach, aber herausfordernd.
Die Daten sind echte Daten, aber anscheinend von guter Qualität. Im Prinzip und in der Praxis könnten Testdatensätze synthetisch sein und dies könnte notwendig oder nützlich sein, um einen Punkt zu verdeutlichen. Dennoch wenden sich nur wenige Menschen gegen echte Daten.
Die Daten wurden vom berühmten britischen Statistiker Ronald Fisher im Jahr 1936 verwendet. (Später wurde er zum Ritter geschlagen und wurde Sir Ronald.) Zumindest einige Lehrer mögen die Idee eines Datensatzes mit einem Link zu jemandem, der auf diesem Gebiet so bekannt ist. Die Daten wurden ursprünglich vom statistisch denkenden Botaniker Edgar S. Anderson veröffentlicht, aber diese frühere Herkunft mindert die Assoziation nicht.
Die Verwendung einiger berühmter Datensätze ist eine der Traditionen, die wir weitergeben, zum Beispiel, dass jeder neuen Generation mitgeteilt wird, dass Student für Guinness gearbeitet hat oder dass viele berühmte Statistiker miteinander in Konflikt geraten sind. Das mag nach Trägheit klingen, aber beim Vergleichen alter und neuer Methoden und bei der Bewertung beliebiger Methoden wird es häufig als hilfreich angesehen, sie an bekannten Datensätzen auszuprobieren, um eine gewisse Kontinuität bei der Bewertung von Methoden zu gewährleisten.
Zu guter Letzt kann der Iris- Datensatz mit Bildern der betreffenden Blumen, wie zB dem nützlichen Wikipedia-Eintrag auf dem Datensatz , auf angenehme Weise gekoppelt werden .

Hinweis. Geben Sie Ihren Beitrag für die biologische Korrektheit, indem Sie die betreffenden Pflanzen sorgfältig zitieren. Iris setosa , Iris versicolor und Iris virginica sind drei Arten (keine Sorten, wie in einigen statistischen Berichten); ihre Binominale sollten wie hier kursiv dargestellt werden; und Iris als Gattungsname und die anderen Namen, die bestimmte Arten anzeigen, sollten mit Groß- bzw. Kleinschreibung beginnen.

— Nick Cox
quelle

(+1) Vielen Dank, dass Sie Ihren Kommentar zu einer Antwort erweitert haben.

— Kardinal

Ich würde eine zusätzliche +1 geben, wenn ich für ein Prinzip für biologische Korrektheit eintreten könnte.

— Fomite

Der Datensatz ist groß und interessant genug, um nicht trivial zu sein, aber klein genug, um "in Ihre Tasche zu passen" und das Experimentieren damit nicht zu verlangsamen.

Ich denke, ein Schlüsselaspekt ist, dass es auch um Überanpassung geht. Es gibt nicht genügend Spalten, um ein perfektes Ergebnis zu erzielen. Dies sehen wir sofort, wenn wir uns die Streudiagramme ansehen, und sie überlappen sich und laufen ineinander. Daher kann jeder Ansatz des maschinellen Lernens, der eine perfekte Punktzahl erzielt, als verdächtig angesehen werden.

— Darren Cook
quelle