Wenn sich Personen in meiner Arbeit auf den "Mittelwert" eines Datensatzes beziehen, beziehen sie sich normalerweise auf den arithmetischen Mittelwert (dh "Durchschnitt" oder "Erwartungswert"). Wenn ich den geometrischen Mittelwert bereitstellen würde, würden die Leute wahrscheinlich denken, dass ich hinterhältig oder nicht hilfreich bin, da die Definition von "Mittelwert" im Voraus bekannt ist.
Ich versuche festzustellen, ob es mehrere Definitionen des "Medians" eines Datensatzes gibt. Eine der Definitionen, die ein Kollege zum Ermitteln des Medians eines Datensatzes mit einer geraden Anzahl von Elementen bereitstellt, lautet beispielsweise:
Algorithmus 'A'
- Teilen Sie die Anzahl der Elemente durch zwei, runden Sie ab.
- Dieser Wert ist der Index des Medians.
- Dh für die folgende Menge wäre der Median
5
. [4, 5, 6, 7]
Dies scheint sinnvoll zu sein, obwohl der Abrundungsaspekt etwas willkürlich erscheint.
Algorithmus 'B'
Auf jeden Fall hat ein anderer Kollege einen eigenen Algorithmus vorgeschlagen, der in einem Statistiklehrbuch von ihm stand (Name und Autor müssen abgefragt werden):
- Teilen Sie die Anzahl der Elemente durch 2 und behalten Sie eine Kopie der gerundeten und abgerundeten ganzen Zahlen. Nennen Sie sie
n_lo
undn_hi
. - Nehmen Sie das arithmetische Mittel der Elemente an
n_lo
undn_hi
. - Dh für die folgende Menge wäre der Median
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Dies scheint jedoch falsch zu sein, da der Medianwert 5.5
in diesem Fall nicht im Originaldatensatz enthalten ist. Als wir in einem Testcode den Algorithmus 'A' gegen 'B' austauschten, brach dieser fürchterlich zusammen (wie wir erwartet hatten).
Frage
Gibt es einen formalen "Namen" für diese beiden Ansätze zur Berechnung des Medians eines Datensatzes? dh "kleiner-der-zwei-Median" versus "Mittelwert-der-mittleren-Elemente-und-Make-New-Data-Median"?