Einige gute Antworten lassen noch Raum für weitere Kommentare.
Erstens hat niemand Einwände gegen die Idee, dass der Median Ausreißer beseitigen soll, aber ich werde es qualifizieren. Die beabsichtigte Bedeutung ist offensichtlich, aber es ist leicht, dass echte Daten komplizierter sind. Der Median soll allenfalls Ausreißer ausschließen oder ignorieren, aber auch das ist nicht garantiert. Beispiel: Bei einer Bewertung von 1 1 1 5 5 5 stimmen der Median und der Mittelwert bei 3 überein, sodass alle als gut erscheinen können. Mit einer zusätzlichen 5 wird der Median auf 5 und mit einer zusätzlichen 1 auf 1 gekippt. Der Mittelwert würde sich in jedem Fall um etwa 0,286 bewegen. Daher ist der Mittelwert hier widerstandsfähiger als der Median. Das Beispiel kann als ungewöhnlich abgetan werden, ist aber nicht empörend. Der Punkt ist natürlich nicht originell. Ein Ort, an dem es gemacht wird, ist Mosteller, F. und Tukey, JW 1977. Datenanalyse und Regression. Reading, MA: Addison-Wesley, S. 34-35.
Zweitens wurden beschnittene Mittel erwähnt, und die Idee verdient einen größeren Schub. Mittelwert und Median müssen keine scharfen Alternativen sein, sodass der Analyst für den einen oder den anderen abstimmen muss. Sie können alle möglichen getrimmten Mittel in Betracht ziehen, die auf dem Trimmen einer bestimmten Anzahl von Werten in jedem Schwanz basieren . Die Tabelle zeigt als # die Anzahl der in die Berechnung des Mittelwerts einbezogenen Werte:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
Das Hauptbild hier ist, dass Sie Ihren Diskontsatz (ignorieren Sie so viele Werte in jedem Schwanz als verdächtig) als eine Art Versicherung gegen das Risiko wählen können, wegen extremer Werte auszufallen. Was ich sehe, ist ein ziemlich sanfter Gradient zwischen Mittelwert und Median, der hier erwartet wird, da alle möglichen Werte 1, 2, 3, 4, 5 in den Daten vorhanden sind. Ein großer Sprung in der Sequenz wird mit einem isolierten Ausreißer erwartet.
Es gibt keine Verpflichtung mit getrimmten Mitteln, gleiche Zahlen in jedem Schwanz zu trimmen, aber ich werde darauf nicht näher eingehen.
Drittens ist das Beispiel von Amazon Bewertungen. Der Kontext ist immer relevant, wenn es darum geht, wie Daten zusammengefasst werden sollen . Im Falle von Amazon-Rezensionen ist die beste Antwort, die Rezensionen zu lesen! Hohe und niedrige Noten können aus falschen Gründen (implizit: der Autor dieses Buches ist mein Freund) und / oder für Ihre Entscheidung irrelevant sein (explizit: der Wiederverkäufer hat mich schlecht behandelt) Implikation dafür, wie solche Daten zusammengefasst werden, und in der Tat, indem die Verteilung gezeigt wird, ist Amazon maximal informativ.
Viertens und am elementarsten, aber auch grundlegendsten von allen, wer lässt dich wählen? Manchmal sollten sowohl Mittelwert als auch Median angegeben werden (und wie gesagt auch ein Verteilungsdiagramm).