Warum konzentriert sich das Testen grundlegender Hypothesen auf den Mittelwert und nicht auf den Median?

In Grundkursen zur Statistik für Studenten werden den Studenten (normalerweise?) Hypothesentests für den Mittelwert einer Grundgesamtheit beigebracht.
Warum liegt der Fokus auf dem Mittelwert und nicht auf dem Median? Ich vermute, dass es aufgrund des zentralen Grenzwertsatzes einfacher ist, den Mittelwert zu testen, aber ich würde gerne einige gebildete Erklärungen lesen.

— nafrtiti
quelle

Der Mittelwert hat nützliche Eigenschaften für die Eindeutigkeit, Berechnung und Berechnung. Es hängt oft mit der ausreichenden Statistik zusammen.

— Henry

Antworten:

Weil Alan Turing nach Ronald Fisher geboren wurde.

Früher mussten all diese Dinge vor dem Computer von Hand erledigt werden oder bestenfalls mit dem, was wir jetzt Taschenrechner nennen würden. Tests zum Vergleichen von Mitteln können auf diese Weise durchgeführt werden - es ist mühsam, aber möglich. Tests auf Quantile (wie den Median) wären auf diese Weise so gut wie unmöglich.

Beispielsweise beruht die Quantilregression auf der Minimierung einer relativ komplizierten Funktion. Dies wäre nicht von Hand möglich. Dies ist mit der Programmierung möglich. Siehe zB Koenker oder Wikipedia .

Quantile Regression hat weniger Annahmen als OLS-Regression und liefert mehr Informationen.

— Peter Flom - Wiedereinsetzung von Monica
quelle

Zu dieser Zeit existierten Computer , bedeuteten aber etwas ganz anderes als das, was wir jetzt damit meinen.

— Maarten Buis

Tatsächlich! Computer waren Menschen, die die Berechnungen durchgeführt haben.

— Peter Flom - Wiedereinsetzung von Monica

@nafrtiti Der Lehrplan ändert sich, aber langsam. Es gibt viel zu überwinden, und Personen außerhalb der Statistik sind nicht an die neuen Ideen gewöhnt, sodass sie diese möglicherweise ablehnen.

— Peter Flom - Wiedereinsetzung von Monica

@ SunQingyao Sortieren ist viel teurer als Hinzufügen. Das Hinzufügen ist O (n) und es ist eine der grundlegendsten Operationen der Hardware und erfordert nur ein Register. Außerdem muss ich nur die Summe und die Anzahl der Elemente kennen, um mehr Daten zu erhalten und den neuen Mittelwert zu berechnen. Um den Median zu berechnen, benötige ich den gesamten Satz

— JimmyJames

Mit der Schnellauswahl (und der Verwendung des Median von 5 zur Auswahl des Pivots, wenn schlechte Pivots zufällig ausgewählt wurden) können Sie ein Quantil in O (N) finden, wodurch die Lücke zwischen Median und Durchschnitt kleiner wird. Natürlich müssen Sie wissen, dass es solche Methoden gibt (die selbst zu Turings Zeiten unbekannt waren).

— Surt

Ich möchte einen dritten Grund zu den von Harrell und Flom angegebenen korrekten Gründen hinzufügen. Der Grund dafür ist, dass wir die euklidische Entfernung (oder L2) und nicht die Manhattan-Entfernung (oder L1) als Standardmaß für die Nähe oder den Fehler verwenden. Wenn man eine Anzahl von Datenpunkten und möchte, dass eine einzelne Zahl diese abschätzt, ist es naheliegend, die Zahl zu finden, die den 'Fehler' minimiert. Diese Zahl erzeugt den kleinsten Unterschied zwischen der gewählten Zahl und die Zahlen, aus denen die Daten bestehen. In mathematischer Notation möchte man für eine gegebene Fehlerfunktion E . Nimmt man für E (x, y) die L2-Norm oder -Distanz, das heißt $x_1, \ldots x_n$ $\theta$ $min_{\theta \in \Bbb{R}} (E(\theta,x_1, \ldots x_n) = min_{\theta \in \Bbb{R}}(\sum_{i=1}^{i=n} E(\theta,x_i))$ $E(x,y) = (x-y)^2$ dann ist der Minimierer über alles der Mittelwert. Nimmt man die L1- oder Manhattan-Distanz, ist der Minimierer über alles der Median. Der Mittelwert ist also die natürliche mathematische Wahl - wenn man L2-Distanz verwendet! $\theta \in \Bbb{R}$ $\theta \in \Bbb{R}$

— aginensky
quelle

Da allgemein zur Bezeichnung von Erwartung verwendet wird , empfehle ich, durch ersetzen .

E

$E$

E

$E$

Err

$\text{Err}$

— Richard Hardy

Vielleicht ist es erwähnenswert, dass bei differenzierbar ist, währendist nicht. Meiner Meinung nach ist dies ein subtiler, aber wesentlicher Grund, warum MSE in der mathematischen Statistik häufiger auftritt als MAE.

x^{2}

$x^2$

x = 0

$x=0$

| x |

$|x|$

— Just_to_Answer

@ Just_to_Answer - Ich denke, das ist noch eine andere Art von Grund. Ich habe über die Jahre viel darüber nachgedacht. Ich bin zu dem Schluss gekommen, dass das, was Sie sagen, damit zusammenhängt, warum wir im Allgemeinen die euklidische und nicht die Manhattan-Entfernung verwenden :)

— aginensky

Oft wird der Mittelwert über dem Median gewählt, nicht weil er repräsentativer, robuster oder aussagekräftiger ist, sondern weil Leute Schätzer mit Schätzer verwechseln. Anders ausgedrückt, einige wählen den Populationsmittelwert als die interessierende Menge, da bei einer Normalverteilung der Stichprobenmittelwert genauer ist als der Stichprobenmedian. Stattdessen sollten sie, wie Sie es getan haben, mehr über die wahre Menge an Interesse nachdenken.

Eine Seitenleiste: Wir haben ein nichtparametrisches Konfidenzintervall für den Populationsmedian, aber es gibt keine nichtparametrische Methode (außer vielleicht der numerisch intensiven empirischen Wahrscheinlichkeitsmethode), um ein Konfidenzintervall für den Populationsmittelwert zu erhalten. Wenn Sie verteilungsfrei bleiben möchten, können Sie sich auf den Median konzentrieren.

Beachten Sie, dass der zentrale Grenzwertsatz weitaus weniger nützlich ist, als es scheint, wie an anderer Stelle auf dieser Site erörtert. Es wird effektiv angenommen, dass die Varianz bekannt ist oder dass die Verteilung symmetrisch ist und eine solche Form aufweist, dass die Stichprobenvarianz ein kompetitiver Schätzer der Dispersion ist.

— Frank Harrell
quelle

Ich glaube, es ist möglich, ein nichtparametrisches Konfidenzintervall für den Mittelwert zu konstruieren, beispielsweise über einen Permutationstest (dies kann unter der Annahme einer Symmetrie erfolgen, ohne dass beispielsweise eine bestimmte funktionale Form angenommen wird). Dies ist eine etwas eingeschränkte Situation, obwohl dies auch unter anderen Voraussetzungen als Symmetrie möglich ist. Wenn Sie bereit sind, mit der ungefähren Abdeckung umzugehen, die mit dem Bootstrapping einhergeht, können Sie nichtparametrische Intervalle ohne Annahmen wie Symmetrie erhalten.

— Glen_b

Wenn es Symmetrie annimmt, ist es parametrisch. Habe nicht gesehen, dass dies auf unsymmetrische Fälle ausgedehnt wurde. Der Bootstrap (alle Varianten mit Ausnahme der studentisierten t-Methode) ist bei starker Asymmetrie äußerst ungenau. Siehe stats.stackexchange.com/questions/186957

— Frank Harrell

Symmetrie ist nicht endlich parametrisch. Ein von Wilcoxon signierter Rangtest setzt eine Symmetrie (um die Austauschbarkeit von Zeichen zu gewährleisten) unter der Null voraus. Das würdest du parametrisch nennen?

— Glen_b

stats.stackexchange.com/questions/9573 stats.stackexchange.com/questions/186957

— Frank Harrell

Auf @ Glen_b Frage zur Symmetrie - das ist eine ausgezeichnete Frage. Der Wilcoxon-Signed-Rank-Test ist ein interessanter Fall, da im Gegensatz zum WIlcoxon-2-Stichproben-Test eine starke Symmetrieannahme besteht. Ich denke, Sie könnten sagen, dass Sie nicht parametrisch sein können, aber dennoch eine allgemeine Annahme wie Symmetrie benötigen. Vielleicht sollte die Terminologie "nichtparametrisch mit Einschränkungen" sein? Andererseits unterliegt der nichtparametrische 2-Stichproben-Test Einschränkungen hinsichtlich der Optimierung des Fehlers vom Typ II (jedoch nicht des Fehlers vom Typ I).

— Frank Harrell