Während eine Reihe von Beiträgen vor Ort verschiedene Grundstücke des Cauchy ansprach, gelang es mir nicht, eines zu finden, das sie wirklich zusammengelegt hatte. Hoffentlich ist dies ein guter Ort, um einige zu sammeln. Ich kann dies erweitern.
Schwere Schwänze
Während der Cauchy symmetrisch und grob glockenförmig ist, ähnlich wie die normale Verteilung, hat er viel schwerere Schwänze (und weniger eine "Schulter"). Beispielsweise gibt es eine kleine, aber eindeutige Wahrscheinlichkeit, dass eine Cauchy-Zufallsvariable mehr als 1000 Interquartilbereiche vom Median entfernt liegt - ungefähr in der gleichen Größenordnung wie eine normale Zufallsvariable, die mindestens 2,67 Interquartilbereiche vom Median entfernt liegt.
Varianz
Die Varianz des Cauchy ist unendlich.
Bearbeiten: JG sagt in Kommentaren, dass es undefiniert ist. Wenn wir die Varianz als Durchschnitt der Hälfte des quadratischen Abstandes zwischen Wertepaaren nehmen - was mit der Varianz identisch ist, wenn beide existieren, dann wäre sie unendlich. Nach der üblichen Definition ist JG jedoch korrekt. [Im Gegensatz zu Stichprobenmitteln, die nicht wirklich zu irgendetwas konvergieren, wenn n groß wird, nimmt die Verteilung der Stichprobenvarianzen mit zunehmender Stichprobengröße stetig zu; Die Skala nimmt proportional zu n zu, oder die Verteilung der logarithmischen Varianz nimmt linear mit der Stichprobengröße zu. Es scheint produktiv zu sein, tatsächlich zu bedenken, dass die Version der Varianz, die Unendlich ergibt, uns etwas sagt.]
Es gibt natürlich Standardabweichungen der Stichprobe, aber je größer die Stichprobe ist, desto größer ist ihre Tendenz (z. B. liegt die mittlere Standardabweichung der Stichprobe bei n = 10 in der Nähe des 3,67-fachen des Skalenparameters (halber IQR), jedoch bei n = 100 es geht um 11.9).
Bedeuten
Die Cauchy-Verteilung hat nicht einmal einen endlichen Mittelwert. das Integral für den Mittelwert konvergiert nicht. Infolgedessen gelten selbst die Gesetze der großen Zahlen nicht - wenn n wächst, konvergieren die Stichprobenmittelwerte nicht zu einer festgelegten Menge (tatsächlich gibt es nichts, woran sie konvergieren können).
Tatsächlich entspricht die Verteilung des Stichprobenmittelwerts aus einer Cauchy-Verteilung der Verteilung einer einzelnen Beobachtung (!). Der Schwanz ist so schwer, dass das Addieren von mehr Werten zu der Summe einen wirklich extremen Wert wahrscheinlich genug macht, um nur die Division durch einen größeren Nenner zu kompensieren, wenn der Mittelwert genommen wird.
Vorhersagbarkeit
Sie können durchaus vernünftige Vorhersageintervalle für Beobachtungen aus einer Cauchy-Verteilung erstellen. Es gibt einfache, ziemlich effiziente Schätzer, die eine gute Leistung bei der Schätzung von Ort und Maßstab erbringen, und es können ungefähre Vorhersageintervalle erstellt werden - zumindest in diesem Sinne sind Cauchy-Variablen "vorhersehbar". Der Schwanz erstreckt sich jedoch sehr weit, sodass ein Intervall mit hoher Wahrscheinlichkeit sehr breit sein kann.
Wenn Sie versuchen, das Zentrum der Verteilung vorherzusagen (z. B. in einem Regressionstyp-Modell), kann dies in gewissem Sinne relativ einfach vorherzusagen sein. Der Cauchy ist ziemlich hoch (für ein typisches Maß der Skalierung liegt die Verteilung "nahe" am Zentrum), sodass das Zentrum relativ gut geschätzt werden kann, wenn Sie einen geeigneten Schätzer haben.
Hier ist ein Beispiel:
Ich habe Daten aus einer linearen Beziehung mit Standard-Cauchy-Fehlern (100 Beobachtungen, Achsenabschnitt = 3, Steigung = 1,5) und geschätzten Regressionslinien mit drei Methoden generiert, die für y-Ausreißer relativ robust sind: Tukey-3-Gruppenlinie (rot), Theil-Regression (dunkelgrün) und L1-Regression (blau). Keiner ist im Cauchy besonders effizient - obwohl sie alle ausgezeichnete Ausgangspunkte für eine effizientere Herangehensweise darstellen würden.
Trotzdem stimmen die drei im Vergleich zum Rauschen der Daten fast überein und liegen sehr nahe an der Mitte, in der die Daten laufen. in diesem Sinne ist der Cauchy eindeutig "vorhersehbar".
Der Median der absoluten Residuen ist für jede der Linien nur wenig größer als 1 (die meisten Daten liegen ziemlich nahe an der geschätzten Linie); auch in diesem sinne ist der cauchy "vorhersehbar".
Für das Grundstück links gibt es einen großen Ausreißer. Um die Daten besser sehen zu können, habe ich die Skala auf der y-Achse rechts verkleinert.