Verwenden von Bootstrap, um die Stichprobenverteilung des 1. Perzentils zu erhalten

Ich habe eine Stichprobe (Größe 250) aus einer Population. Ich kenne die Verteilung der Bevölkerung nicht.

Die wichtigste Frage: Ich möchte einen Punkt Schätzung der 1 ^st -Perzentil der Bevölkerung, und dann will ich ein 95% Konfidenzintervall um meinen Punkt zu schätzen.

Meine Punktschätzung wird das ^erste Perzentil der Stichprobe sein . Ich bezeichne es . $x$

Danach versuche ich, das Konfidenzintervall um die Punktschätzung herum aufzubauen. Ich frage mich, ob es Sinn macht, hier Bootstrap zu verwenden. Ich bin sehr unerfahren mit Bootstrap, also entschuldigen Sie, wenn ich nicht die entsprechende Terminologie usw. verwende.

Hier ist, wie ich es versucht habe. Ich ziehe 1000 Zufallsstichproben mit Ersatz aus meiner Originalstichprobe. Ich erhalte den 1 ^st -Perzentil von jedem von ihnen. Ich habe also 1000 Punkte - "die 1 ^st -percentiles". Ich betrachte die empirische Verteilung dieser 1000 Punkte. Ich bezeichne den Mittelwert davon . Ich bezeichne eine "Voreingenommenheit" wie folgt: . Ich nehme die 2,5 - ^te -Perzentil und 97,5 ^Th der 1000 Punkte Perzentil dem unteren und dem oberen Ende zu bekommen , was ich ein 95% Konfidenzintervall um die 1 rufen ^st -Perzentil der ursprünglichen Probe. Ich bezeichne diese Punkte und . $x_{mean}$ $\text{bias}=x_{mean}-x$ $x_{0.025}$ $x_{0.975}$

Der letzte verbleibende Schritt ist diesen Konfidenzintervall anzupassen zu sein um den 1 ^st -Perzentil der Bevölkerung eher als um die 1 ^st -Perzentil der ursprünglichen Probe . Daher nehme ich als unteres Ende und als oberes Ende des 95% Konfidenzintervall um den Punkt Schätzung der 1 Bevölkerung ^st -Perzentil. Dieses letzte Intervall habe ich gesucht. $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$

Ein entscheidender Punkt, meiner Meinung nach , ist , ob es sinnvoll, den Einsatz Bootstrap für 1 macht ^st -Perzentil , die an das Ende der unbekannten zugrundeliegenden Verteilung der Bevölkerung ziemlich nahe ist. Ich vermute, es könnte problematisch sein; Denken Sie daran, Bootstrap zum Erstellen eines Konfidenzintervalls um ein Minimum (oder ein Maximum) zu verwenden.

Aber vielleicht ist dieser Ansatz fehlerhaft? Lass es mich wissen, bitte.

BEARBEITEN:

Mit Gedanken über das Problem ein wenig mehr, ich sehe , dass meine Lösung die folgende bedeutet: die empirischen 1 ^st Perzentil der ursprünglichen Probe einen vorgespannten Schätzer des 1 sein kann , ^st Perzentil der Bevölkerung. In diesem Fall sollte die Punktschätzung voreingenommen sein: . Andernfalls wäre das vorspannungsangepasste Konfidenzintervall nicht mit der vorspannungsunangepassten Punktschätzung kompatibel. Ich muss entweder sowohl die Punktschätzung als auch das Konfidenzintervall anpassen oder keines davon. $x-\text{bias}$

Wenn ich andererseits nicht zulassen würde, dass die Schätzung verzerrt wird, müsste ich die Vorspannungsanpassung nicht vornehmen. Das heißt, ich würde als Punktschätzung und als unteres Ende und als oberes Ende der 95% nehmen. Konfidenzintervall. Ich bin mir nicht sicher, ob dieses Intervall sinnvoll ist ... $x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

So macht es keinen Sinn , anzunehmen , dass die Probe 1 ^st Perzentil einer verzerrten Schätzung der Bevölkerung 1 ^st Perzentil? Und wenn nicht, ist meine alternative Lösung richtig?

— Richard Hardy
quelle

Dies geht nicht direkt auf die Bootstrap-Frage ein, könnte aber für Sie hilfreich sein: onlinecourses.science.psu.edu/stat414/node/231

— shadowtalker

Die Bootstrap-Inferenz für die Extreme einer Distribution ist im Allgemeinen zweifelhaft. Wenn Sie n-out-of-n als Minimum oder Maximum in der Stichprobe der Größe booten, haben Sie Wahrscheinlichkeit, dass Sie Ihre extreme Probebeobachtung reproduzieren, und ebenfalls ungefähr Chance, Ihre zweite extreme Beobachtung zu reproduzieren, und so weiter. Sie erhalten eine deterministische Verteilung, die wenig mit der Form der zugrunde liegenden Verteilung am Schwanz zu tun hat. Darüber hinaus kann der Bootstrap Ihnen nichts unter Ihrem Beispielminimum geben, selbst wenn die Verteilung die Unterstützung unter diesem Wert hat (wie dies bei den meisten kontinuierlichen Verteilungen wie beispielsweise normal der Fall wäre). $n$ $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$

Die Lösungen sind kompliziert und beruhen auf den Kombinationen von Asymptotika aus der Extremwerttheorie und der Unterabtastung von weniger als n Beobachtungen (tatsächlich sollte die Rate viel weniger als gegen Null konvergieren ). $n\to\infty$

— StasK
quelle

Die Antwort ist hilfreich, aber ich möchte eine Vorstellung davon bekommen, wie nahe das 1. Perzentil in Bezug auf das Bootstrap-Verhalten am Minimum liegt. Ich denke, dass in sehr großen Stichproben das 1. Perzentil als "weit" vom Minimum entfernt betrachtet werden kann und die oben aufgeführten Probleme ignoriert werden können, während in kleinen Stichproben das 1. Perzentil selbst das Minimum ist und die Probleme sehr wichtig sind. Wir sind also irgendwo dazwischen. Ich denke, dass meine Stichprobengröße von 250 Beobachtungen in dieser Hinsicht als ziemlich klein angesehen werden sollte.

— Richard Hardy