Standardfehler des Medians


14

Ist die folgende Formel richtig, wenn ich den Standardfehler des Medians bei einer kleinen Stichprobe mit nicht normaler Verteilung messen möchte (ich verwende Python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Antworten:


12

Aufgrund einiger Kommentare von @ mary halte ich Folgendes für angemessen. Sie scheint den Median zu wählen, weil die Stichprobe klein ist.

Wenn Sie den Median gewählt haben, weil es sich um eine kleine Stichprobe handelt, ist dies keine gute Begründung. Sie wählen den Median, weil der Median ein wichtiger Wert ist. Es sagt etwas anderes als der Mittelwert. Sie können es auch für einige statistische Berechnungen auswählen, da es gegen bestimmte Probleme wie Ausreißer oder Schräglauf robust ist. Eine kleine Stichprobe ist jedoch keines der Probleme, gegen die sie robust ist. Wenn zum Beispiel die Stichprobengröße kleiner wird, ist die Empfindlichkeit gegenüber Schräglauf wesentlich höher als der Mittelwert.


Danke John! Eigentlich habe ich aus dem Grund, den Sie gerade geschrieben haben, den Median anstelle des Mittelwerts verwendet. Ich habe verschiedene Samples, die alle keine Gauß-Verteilung haben. Es gibt Beispiele mit mehr als 50 Punkten, andere mit weniger als 10 Punkten, aber ich denke, Ihr Kommentar ist für alle gültig, nicht wahr?
mary

Bei so wenigen Punkten bin ich mir nicht sicher, was Sie über die zugrunde liegende Verteilung sagen können. Wenn Sie Stichproben mit weniger als 10 mit Stichproben mit 50 vergleichen und die zugrunde liegende Verteilung nicht symmetrisch ist, zeigt ein Median einen Effekt, auch wenn es keinen gibt, da er in der kleinen Stichprobe mehr Verzerrungen aufweist als in der großen. Der Mittelwert wird nicht.
John

In Zukunft können Sie Ihre Fragen besser ausarbeiten und mehr darüber fragen, was Sie wirklich wissen müssen. Sagen Sie, warum Sie das getan haben, was Sie bisher getan haben, und beschreiben Sie die Daten, über die Sie gut verfügen. Sie erhalten viel bessere Antworten.
John

1
" Kleine Stichprobengröße ist nicht eines der Probleme, gegen die sie robust ist " ist für sich allein eine +1 wert; Der Rest ist ein Bonus
Glen_b -Reinstate Monica

Tatsächlich betont Huber in seinem Buch, dass es kein einziges Konzept für Robustheit gibt. Ausreißer sind robust (und dafür ist der Median robust). Eine andere Sichtweise ist jedoch die Robustheit gegenüber Messfehlern, und genau dafür ist der Mittelwert robust, da er diese Messfehler mittelt. Der Median ist jedoch sehr anfällig für Messfehlerschwankungen, da diese die Mitte der Verteilung genauso stark beeinflussen können wie die Schwänze.
StasK

12

Sokal und Rohlf geben diese Formel in ihrem Buch Biometrie (Seite 139) an. Unter "Anmerkungen zur Anwendbarkeit" schreiben sie: Große Stichproben aus normalen Populationen. Daher fürchte ich, dass die Antwort auf Ihre Frage Nein lautet. Siehe auch hier .

Eine Möglichkeit, die Standardfehler- und Konfidenzintervalle für den Median in kleinen Stichproben mit nicht normalen Verteilungen zu ermitteln, wäre das Bootstrapping. Dieser Beitrag enthält Links zu Python-Paketen für das Bootstrapping.

Warnung

@whuber wies darauf hin, dass das Bootstrapping des Medians in kleinen Stichproben nicht sehr informativ ist, da die Begründungen des Bootstraps asymptotisch sind (siehe Kommentare unten).


Danke für deine Antwort! Ich weiß, dass Bootstrapping eine Alternative wäre, ich habe nur geraten, ob es eine Möglichkeit gibt, den Fehler des Medians auf eine andere Weise zu messen. Ist die Antwort nein auch für den Standardfehler auf der MEAN (dieselbe kleine nicht-Gaußsche Stichprobe)?
mary

@mary Für den Standardfehler des Mittelwerts schreiben Sokal und Rohl, dass er für "jede Population mit [...] endlicher Varianz" gilt. Die Antwort für den Standardfehler des Mittelwerts scheint also ja zu sein, Sie können es berechnen. Nebenbemerkung: Es gibt jedoch Verteilungen (z. B. die Cauchy-Verteilung), die keine definierte Varianz oder keinen definierten Mittelwert haben. In solchen Fällen kann das SEM nicht berechnet werden.
COOLSerdash

5
(+1) Leider ist das Bootstrappen des Medians einer kleinen Stichprobe auch nicht sehr informativ - und nicht erforderlich, da es durch eine einfache Berechnung ersetzt werden kann. (Für eine beliebige AnzahltFragen Sie sich, wie hoch die Wahrscheinlichkeit ist, dass mehr als die Hälfte eines Bootstrap-Samples überschritten wird t? Diese Antwort ist leicht zu bekommen, und jetzt müssen Sie keine Simulationen ausführen, um sie abzuschätzen.)
whuber

@whuber Danke für deinen Kommentar. Das ist gut zu wissen. Ich habe den Rat gelöscht, den Median in kleinen Stichproben aus meiner Antwort zu berechnen.
COOLSerdash

1
Ich wollte nicht vorschlagen, dass es ein schlechter Rat ist: Ich wollte nur auf seine (unvermeidlichen) Grenzen hinweisen. Es ist schwierig, viel aus kleinen Proben zu lernen. Das Bootstrapping kleiner Proben ist jedoch doppelt umständlich, da es keine theoretische Begründung dafür gibt (alle Begründung ist asymptotisch).
whuber

12

Die magische Zahl 1.253 ergibt sich aus der asymptotischen Varianzformel :

EINs.Veinr.[m^]=14f(m)2n
wo m ist der wahre Median und f(m) ist die wahre Dichte an diesem Punkt.

Für jede andere Verteilung als die normale (und Mary gibt zu, dass dies in ihren Daten zweifelhaft ist), hätten Sie einen anderen Faktor. Ermittlung der mittleren Schätzungm^Das ist keine so große Sache, obwohl Sie anfangen können, sich über die Mittelwerte für die gerade Anzahl von Beobachtungen zu quälen, anstatt das cdf zu invertieren oder so etwas. Der relevante Dichtewert kann bei Bedarf von Kernel-Dichteschätzern geschätzt werden . Insgesamt ist dies natürlich relativ zweifelhaft, da drei Annäherungen vorgenommen werden:

  1. Dass die asymptotische Varianzformel für die kleine Stichprobe gilt;
  2. Dass der geschätzte Median nahe genug am wahren Median liegt;
  3. Dass der Kernel-Dichteschätzer einen genauen Wert liefert.

Je geringer die Stichprobengröße, desto zweifelhafter wird es.


3
Vielleicht lohnt es sich hinzuzufügen, dass die magische Zahl ist π21,253314
Henry
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.