Warum wird der quadratische Unterschied so häufig verwendet?

Sehr oft stoße ich bei der Untersuchung neuer statistischer Methoden und Konzepte auf die quadratische Differenz (oder den mittleren quadratischen Fehler oder eine Vielzahl anderer Epitheta). Nur als Beispiel wird Pearsons r auf der Grundlage der mittleren quadratischen Differenz von der Regressionslinie, auf der die Punkte liegen, bestimmt. Bei ANOVAs sehen Sie die Summe der Quadrate und so weiter.

Wenn Sie nun alles quadrieren, stellen Sie sicher, dass Daten mit Ausreißern wirklich bestraft werden. Warum wird der Exponent jedoch genau 2 verwendet? Warum nicht 2.1 oder e oder pi oder was auch immer? Gibt es einen besonderen Grund, warum 2 verwendet wird, oder handelt es sich nur um eine Konvention? Ich vermute, dass die Erklärung etwas mit der Glockenkurve zu tun hat, aber ich bin mir ziemlich sicher.

normal-distribution

— Speldosa
quelle

Erstens missbrauchen Sie den Begriff EXPONENTIAL, der sich auf Dinge wie und nicht auf bezieht . Schauen Sie sich zweitens stats.stackexchange.com/questions/118/… an, wo dieses Thema ausführlich behandelt wird.

a^{x}

$a^x$

x^{a}

$x^a$

— Russ Lenth

@rvl Danke, ich habe diesen Begriff aus meiner Frage herausgeschnitten. Und danke, ich werde diese Frage überprüfen!

— Speldosa

Ein guter Grund, warum sie auftauchen, sind letztendlich die einfachen Formeln, die Varianzen von Summen mit Varianzen (und möglicherweise Kovarianzen) von Komponenten in Beziehung setzen, und die sauberen Ergebnisse über die Zerlegung von Quadraten. Wenn die oben aufgeführte Frage @rvl Ihre Frage beantwortet, sollten Sie in Betracht ziehen, Ihre Frage zu schließen. Wenn Ihre Frage nicht vollständig beantwortet wird, bearbeiten Sie Ihre Frage, um die Unterschiede zwischen dem, was Sie wissen möchten, und dem, was dort behandelt wird, hervorzuheben.

— Glen_b

Ich denke, dies ist eine andere Frage als der andere (populäre) Thread zum Quadrieren. Es gibt einen konzeptionellen Unterschied zwischen einer Quadratverlustfunktion (die im Grunde der Schlüssel zur Beantwortung dieser Frage ist) und einer Quadratur zur Beurteilung von Abweichungen (die der Schub des anderen Threads ist).

— Whuber

Überprüfen Sie hier und hier für ähnliche Probleme.

— Tim

Eine entscheidungstheoretische Herangehensweise an die Statistik liefert eine tiefe Erklärung. Das Quadrieren von Differenzen ist ein Proxy für eine Vielzahl von Verlustfunktionen, die (wann immer sie gerechtfertigt sind) zu einer erheblichen Vereinfachung der möglichen statistischen Verfahren führen, die zu berücksichtigen sind.

Leider ist es sehr aufwändig zu erklären, was dies bedeutet und warum dies der Fall ist. Die Notation kann schnell unverständlich werden. Ich möchte hier also nur die Hauptideen skizzieren, ohne sie näher zu erläutern. Weitere Informationen finden Sie in den Referenzen.

Ein standardmäßiges, reichhaltiges Datenmodell dass es sich um eine Realisierung einer (reellen, vektorwertigen) Zufallsvariablen deren Verteilung bekanntermaßen nur ein Element einer Menge von von Verteilungen ist, den Zuständen der Natur . Eine statistische Prozedur ist eine Funktion von die in einem Satz von Entscheidungen , dem Entscheidungsraum , Werte annimmt . $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

Beispielsweise würde in einem Vorhersage- oder Klassifizierungsproblem aus einer Vereinigung eines "Trainingssatzes" und eines "Testsatzes von Daten" bestehen, und wird in einen Satz von vorhergesagten Werten für den Testsatz abbilden. Die Menge aller möglichen vorhergesagten Werten wäre . $\mathbf x$ $t$ $\mathbf x$ $D$

Eine vollständige theoretische Diskussion der Verfahren muss randomisierte Verfahren berücksichtigen . Eine randomisierte Prozedur wählt aus zwei oder mehr möglichen Entscheidungen gemäß einer Wahrscheinlichkeitsverteilung (die von den Daten abhängt ). Es verallgemeinert die intuitive Idee, dass, wenn die Daten nicht zwischen zwei Alternativen zu unterscheiden scheinen, Sie anschließend "eine Münze werfen", um sich für eine bestimmte Alternative zu entscheiden. Viele Menschen lehnen randomisierte Verfahren ab und lehnen es ab, Entscheidungen auf solch unvorhersehbare Weise zu treffen. $\mathbf x$

Das Unterscheidungsmerkmal der Entscheidungstheorie ist die Verwendung einer Verlustfunktion . $W$ Für jeden Naturzustand und Entscheidung ist der Verlust $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

ist ein numerischer Wert, der angibt, wie "schlecht" es wäre, eine Entscheidung zu treffen, wenn der wahre Naturzustand : kleine Verluste sind gut, große Verluste sind schlecht. In einer Hypothesentestsituation hat beispielsweise die beiden Elemente "annehmen" und "ablehnen" (die Nullhypothese). Die Verlustfunktion betont das Treffen der richtigen Entscheidung: Sie wird auf Null gesetzt, wenn die Entscheidung korrekt ist, und ist ansonsten eine Konstante . ( „Dies ist eine sogenannte Konkret: alle schlechten Entscheidungen sind gleich schlecht und alle gute Entscheidungen sind gleich gut Verlustfunktion“.) , wenn $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ steht in der Nullhypothese und wenn in der Alternativhypothese steht. $F$ $W(F,\text{ reject})=0$ $F$

Bei Verwendung der Prozedur kann der Verlust für die Daten wenn der wahre Naturzustand ist, . Dies macht den Verlust einer Zufallsvariablen, deren Verteilung durch (das Unbekannte) . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

Der erwartete Verlust eines Verfahrens wird seine genannte Risiko , . Die Erwartung verwendet den wahren Naturzustand , der daher explizit als Index des Erwartungsoperators erscheint. Wir betrachten das Risiko als eine Funktion von und betonen dies mit der Notation: $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

Bessere Verfahren haben ein geringeres Risiko. Der Vergleich von Risikofunktionen ist somit die Grundlage für die Auswahl guter statistischer Verfahren. Da die Neuskalierung aller Risikofunktionen durch eine gemeinsame (positive) Konstante keine Vergleiche verändern würde, spielt die Skala von keine Rolle: Wir können sie mit jedem beliebigen positiven Wert multiplizieren. Insbesondere bei der Multiplikation von wir immer nehmen können für eine Verlustfunktion (rechtfertigt seinen Namen). $W$ $W$ $1/w$ $w=1$ $0-1$

Um das Hypothesentestbeispiel fortzusetzen, das eine Verlustfunktion veranschaulicht , implizieren diese Definitionen das Risiko, dass ein in der Nullhypothese die Wahrscheinlichkeit ist, dass die Entscheidung "zurückgewiesen" wird, während das Risiko eines in der Alternative das Risiko ist Chance, dass die Entscheidung "akzeptieren" ist. Der Maximalwert (über alle in der Nullhypothese) ist die Testgröße , während der Teil der Risikofunktion auf der alternativen Hypothese definiert ist das Komplement der Testleistung ( $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$ ). Darin sehen wir, wie die Gesamtheit der klassischen (frequentistischen) Hypothesentestungstheorie eine bestimmte Möglichkeit darstellt, Risikofunktionen für eine bestimmte Art von Verlust zu vergleichen.

Übrigens ist alles, was bisher präsentiert wurde, perfekt mit allen gängigen Statistiken kompatibel, einschließlich des Bayes'schen Paradigmas. Zusätzlich führt die Bayes'sche Analyse eine "vorherige" Wahrscheinlichkeitsverteilung über und vereinfacht damit den Vergleich von Risikofunktionen: Die möglicherweise komplizierte Funktion kann durch ihren erwarteten Wert in Bezug auf die vorherige Verteilung ersetzt werden. Somit sind alle Prozeduren durch eine einzige Zahl ; ein Bayes-Verfahren (das normalerweise einzigartig ist) minimiert . Die Verlustfunktion spielt immer noch eine wesentliche Rolle bei der Berechnung von . $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

Es gibt einige (unvermeidbare) Kontroversen bezüglich der Verwendung von Verlustfunktionen. Wie wählt man ? Es ist im Wesentlichen einzigartig für Hypothesentests, aber in den meisten anderen statistischen Einstellungen sind viele Auswahlmöglichkeiten möglich. Sie spiegeln die Werte des Entscheiders wider. Wenn es sich bei den Daten beispielsweise um physiologische Messungen eines medizinischen Patienten handelt und die Entscheidungen "behandeln" oder "nicht behandeln" lauten, muss der Arzt die Konsequenzen beider Maßnahmen berücksichtigen und abwägen. Wie die Folgen abgewogen werden, hängt möglicherweise von den Wünschen des Patienten, seinem Alter, seiner Lebensqualität und vielen anderen Faktoren ab. Die Wahl einer Verlustfunktion kann schwierig und sehr persönlich sein. Normalerweise sollte es nicht dem Statistiker überlassen werden! $W$

Eine Sache, die wir wissen möchten, ist, wie sich die Wahl des besten Verfahrens ändern würde, wenn sich der Verlust ändert. Es stellt sich heraus, dass in vielen gängigen, praktischen Situationen ein gewisses Maß an Abweichungen toleriert werden kann, ohne dass sich das beste Verfahren ändert. Diese Situationen sind durch folgende Bedingungen gekennzeichnet:

Der Entscheidungsraum ist eine konvexe Menge (oft ein Intervall von Zahlen). Dies bedeutet, dass jeder Wert, der zwischen zwei Entscheidungen liegt, auch eine gültige Entscheidung ist.
Der Verlust ist Null, wenn die bestmögliche Entscheidung getroffen wird und ansonsten zunimmt (um Diskrepanzen zwischen der getroffenen Entscheidung und der bestmöglichen Entscheidung für den wahren - aber unbekannten - Zustand der Natur widerzuspiegeln).
Der Verlust ist eine differenzierbare Funktion der Entscheidung (zumindest lokal nahe der besten Entscheidung). Dies bedeutet , es kontinuierlich ist - es ist nicht die Art und Weise ein springt Verlust tut - aber es bedeutet auch , dass es relativ wenig ändert , wenn die Entscheidung in der Nähe des besten. $0-1$

Wenn diese Bedingungen erfüllt sind, verschwinden einige Komplikationen beim Vergleich von Risikofunktionen. Die Differenzierbarkeit und Konvexität von ermöglicht es uns, Jensens Ungleichung anzuwenden, um dies zu zeigen $W$

(1) Randomisierte Verfahren müssen nicht berücksichtigt werden [Lehmann, Folgerung 6.2].

(2) Wird ein Verfahren als das beste Risiko für ein solches , so kann es zu einem Verfahren verbessert werden, das nur von einer ausreichenden Statistik abhängt und für alle solche eine mindestens ebenso gute Risikofunktion hat [Kiefer , p. 151]. $t$ $W$ $t^{*}$ $W$

Angenommen, ist die Menge der Normalverteilungen mit dem Mittelwert (und der Einheitsvarianz). Dies identifiziert mit der Menge aller reellen Zahlen, so dass ich (unter Missbrauch der Notation) auch " " verwenden werde, um die Verteilung in mit dem Mittelwert zu identifizieren . Sei eine iid-Stichprobe der Größe aus einer dieser Verteilungen. Angenommen, das Ziel ist die Schätzung von . Dies identifiziert den Entscheidungsraum mit allen möglichen Werten von (jede reelle Zahl). Vermietung eine willkürliche Entscheidung bezeichnet, ist der Verlust eine Funktion $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

mit , wenn und nur wenn . Die vorhergehenden Annahmen implizieren (über Taylors Theorem), dass $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

für eine konstant positive Zahl . (The little-o notation " " ist jede Funktion , wo der Grenzwert von ist als ) . Wie bereits erwähnt, sind wir frei neu zu skalieren zu machen . Für diese Familie ist der Mittelwert von , geschrieben , eine ausreichende Statistik. Das vorige Ergebnis (zitiert nach Kiefer) sagt jeder Schätzer aus $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ , das eine willkürliche Funktion der Variablen , die für ein solches , kann in einen Schätzer umgewandelt werden, der nur von das für alle mindestens so gut ist. $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ $\bar x$ $W$

Das, was in diesem Beispiel erreicht wurde, ist typisch: Die äußerst komplizierte Menge möglicher Prozeduren, die ursprünglich aus möglicherweise randomisierten Funktionen von Variablen bestand, wurde auf eine viel einfachere Menge von Prozeduren reduziert, die aus nicht randomisierten Funktionen einer einzelnen Variablen bestand ( oder mindestens eine geringere Anzahl von Variablen in Fällen, in denen ausreichende Statistiken multivariat sind). Und das, ohne sich darum zu kümmern, wie genau die Verlustfunktion des Entscheiders aussieht, vorausgesetzt, sie ist konvex und differenzierbar. $n$

Was ist die einfachste derartige Verlustfunktion? Derjenige, der den Restbegriff ignoriert, macht ihn natürlich zu einer rein quadratischen Funktion. Andere Verlustfunktionen in derselben Klasse umfassen Potenzen von , die größer als (wie beispielsweise die und in der Frage erwähnt), , und viele mehr. $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

Zahl

Die blaue (obere) Kurve zeigt während die rote (untere) Kurve . Da die blaue Kurve auch ein Minimum bei , differenzierbar und konvex ist, gelten viele der schönen Eigenschaften statistischer Verfahren, die der quadratische Verlust (die rote Kurve) bietet, auch für die Funktion des blauen Verlusts $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ (obwohl global die Exponentialfunktion gilt) verhält sich anders als die quadratische Funktion).

Diese Ergebnisse (obwohl offensichtlich begrenzt durch die auferlegten Bedingungen) erklären, warum quadratischer Verlust in der statistischen Theorie und Praxis allgegenwärtig ist: In begrenztem Umfang ist er ein analytisch geeigneter Proxy für jede konvexe differenzierbare Verlustfunktion.

Der quadratische Verlust ist keineswegs der einzige oder sogar der beste zu berücksichtigende Verlust. Tatsächlich schreibt Lehman das

Es wurde festgestellt, dass konvexe Verlustfunktionen zu einer Reihe von Vereinfachungen von Schätzproblemen führen. Man mag sich jedoch fragen, ob solche Verlustfunktionen wahrscheinlich realistisch sind. Wenn nicht nur ein Maß für die Ungenauigkeit darstellt, sondern ein realer (zum Beispiel finanzieller) Verlust, kann man argumentieren, dass alle diese Verluste begrenzt sind: Wenn Sie alle verloren haben, können Sie nicht mehr verlieren. ... $W(F, d)$

... [F] stark wachsende Verlustfunktionen führen zu Schätzern, die tendenziell empfindlich auf die Annahmen über das Schwanzverhalten [der angenommenen Verteilung] reagieren, und diese Annahmen beruhen in der Regel auf wenig Informationen und sind daher nicht sehr zuverlässig.

Es stellt sich heraus, dass die Schätzer, die durch quadratischen Fehlerverlust erzeugt werden, in dieser Hinsicht oft unangenehm empfindlich sind.

[Lehman, Abschnitt 1.6; mit einigen Änderungen der Notation.]

Die Betrachtung alternativer Verluste eröffnet eine Fülle von Möglichkeiten: Quantilregressionen, M-Schätzer, belastbare Statistiken und vieles mehr können auf diese entscheidungstheoretische Weise festgelegt und mithilfe alternativer Verlustfunktionen gerechtfertigt werden. Ein einfaches Beispiel finden Sie unter Perzentilverlustfunktionen .

Verweise

Jack Carl Kiefer, Einführung in die statistische Inferenz. Springer-Verlag 1987.

EL Lehmann, Theorie der Punktschätzung . Wiley 1983.

— whuber
quelle

Die geometrischen Eigenschaften für diese Abstandsmetrik sind so, dass sie einfach zu verwenden sind.

Und natürlich einfachere Mathematik, wenn Sie für die meisten Probleme eine analytische Lösung haben.

— Analytiker
quelle

Vielleicht könnten Sie ein bisschen mehr ausarbeiten?

— Tim

@ Tim, Dreieck-Ungleichung und mathematische Eigenschaften von quadratischen Formen kamen mir in den Sinn ...

— Analyst

Die Dreiecksungleichung existiert für jede Distanzmetrik. Was die euklidische Distanz / 2-Norm / Quadrat-Differenz / MSE besonders macht, ist die große Menge von Transformationen, die sie bewahren (alle orthogonalen Matrizen).

— Federico Poloni