Können wir sagen, dass 50% der Daten zwischen dem 25. und 75. Perzentil liegen?

Angenommen, wir haben den folgenden Datenrahmen:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Ich bin hier etwas verwirrt. Wenn wir das 75. Przentil erhalten, sollten 75% der Daten unter diesem Perzentil liegen. Und wenn wir das 25. Perzentil erreichen können, sollten 25% der Daten unter dem 25. liegen. Jetzt denke ich, dass 50% der Daten zwischen dem 25. und 50. liegen sollten. Und auch das 50. Perzentil gibt mir einen anderen Wert. Fair genug, was bedeutet, dass 50% der Daten unter diesem Wert liegen sollten. Aber meine Frage ist, ob mein Ansatz richtig ist?

EDIT: Und können wir auch sagen, dass 98% der Daten zwischen dem 1. und 99. Perzentil liegen werden?

quantiles statsmodels

— Don Coder
quelle

Ja, aber Sie können auch sagen, dass 50% der Daten nicht sein werden!

— James

Antworten:

Ja.

75% Ihrer Daten liegen unter dem 75. Perzentil.
25% Ihrer Daten liegen unter dem 25. Perzentil.
Daher liegen 50% (= 75% -25%) Ihrer Daten zwischen den beiden, dh zwischen dem 25. und dem 75. Perzentil.
Ganz analog liegen 98% Ihrer Daten zwischen dem 1. und dem 99. Perzentil.
Und die untere Hälfte Ihrer Daten, wieder 50%, liegt unter dem 50. Perzentil.

Diese Zahlen sind möglicherweise nicht vollständig korrekt, insbesondere wenn Sie nur wenige Daten haben. Beachten Sie auch, dass es unterschiedliche Konventionen gibt, wie Quantile und Perzentile tatsächlich berechnet werden .

— Stephan Kolassa
quelle

Ein weiterer Grund, warum Ihre Zahlen möglicherweise nicht stimmen, ist, wenn Sie viele Bindungen haben (Beobachtungen mit dem gleichen Wert)

— Maarten Buis

"Am häufigsten verwendetes Perzentil" - meinen Sie, welcher Typ gemäß dem typeArgument in Rsquantile() ? Hyndman & Fan empfehlen Typ 7, der ebenfalls die Standardeinstellung ist. Um ganz ehrlich zu sein, sind die Unterschiede gering. Oder meinst du, wie viel Prozent häufig verwendet werden? Das hängt von Ihrer Bewerbung ab, wir können Ihnen dabei nicht helfen. Und je mehr Daten Sie erhalten, desto genauer werden Sie natürlich sein. Welche Genauigkeit ausreicht, hängt von Ihren Daten und Ihrer Anwendung ab.

— Stephan Kolassa

Welches Level Sie benötigen, hängt davon ab, wofür Sie Ihre Analyse verwenden.

— Stephan Kolassa

"Nicht ganz korrekt, besonders wenn Sie nur wenige Daten haben." - könnte es wert sein, dies zu klären, da es zwei Faktoren gibt, die ich im Spiel sehen kann: (1) Die Stichprobengröße ist möglicherweise nicht genau durch 4 oder 100 teilbar oder was auch immer für das betreffende Quantil benötigt wird. (2) Datenpunkte sind möglicherweise nicht eindeutig (z. B. können Sie für Daten auf einer ganzen Zahl im Maßstab 1 bis 5 viele wiederholte Werte erwarten; Quartile können sich in diesem Fall in Bezug auf Eigenschaften wie "50% der Daten" sehr schlecht verhalten liegen über dem Median "oder" zwischen Q1 und Q3 "und Perzentile sind oft Zeitverschwendung)

— Silverfish

@StephanKolassa, es scheint, Hyndman & Fan empfehlen Typ 8. (Was auch in erwähnt wird ?quantile.)

— Axeman

Im Idealfall ja.

Perzentile werden normalerweise als Normalverteilung interpretiert (da Normalität häufig eine zugrunde liegende, manchmal nicht angegebene Annahme ist, wenn elementare statistische Kennzahlen berechnet werden). Die Verteilung muss jedoch nicht normal sein.

Laut dieser Website ...

$X = \mu + Z \sigma$

Wenn wir also von Normalität ausgehen, können wir jedes gesuchte Perzentil leicht berechnen. Perzentile erfordern jedoch keine Verteilungsannahmen und sind an die Daten gebunden, aus denen sie berechnet werden. Dies bedeutet, dass Perzentile sowohl für normale als auch für nicht normale Verteilungen aussagekräftige Benchmarks liefern können. Sie können auch Perzentile in einer Wahrscheinlichkeitsinterpretation verwenden, natürlich basierend auf den Messungen, die Sie derzeit haben. Dies können gute oder schlechte Indikatoren für die wahre zugrunde liegende Verteilung sein.

Laut dieser Seite ...

$P_{10}$ $P_{90}$ $p < P_{10}$ $p < P_{90}$ $p$ $P_{10} − P_{90}$

— ERT
quelle

Um ehrlich zu sein, denke ich nicht, dass Ihre Betonung der Normalverteilung hier nützlich ist. Das OP ist ausschließlich an empirischen Perzentilen interessiert.

— Stephan Kolassa

Stimmen Sie @StephanKolassa zu, insbesondere da die Beispieldaten des OP nicht normal sind.

— Nuclear Wang