Es war ein kleiner Schock für mich, als ich zum ersten Mal eine Monte-Carlo-Normalverteilungssimulation durchführte und feststellte, dass der Mittelwert von Standardabweichungen von Stichproben, die alle nur eine Stichprobengröße von , viel geringer war als, dh Mittelung mal dasdas zur Erzeugung der Grundgesamtheit verwendet wird. Dies ist jedoch bekannt, wenn man sich nur selten daran erinnert, und ich wusste es irgendwie, oder ich hätte keine Simulation durchgeführt. Hier ist eine Simulation.
Hier ist ein Beispiel für die Vorhersage von 95% -Konfidenzintervallen von Verwendung von 100, , Schätzungen von und .
RAND() RAND() Calc Calc
N(0,1) N(0,1) SD E(s)
-1.1171 -0.0627 0.7455 0.9344
1.7278 -0.8016 1.7886 2.2417
1.3705 -1.3710 1.9385 2.4295
1.5648 -0.7156 1.6125 2.0209
1.2379 0.4896 0.5291 0.6632
-1.8354 1.0531 2.0425 2.5599
1.0320 -0.3531 0.9794 1.2275
1.2021 -0.3631 1.1067 1.3871
1.3201 -1.1058 1.7154 2.1499
-0.4946 -1.1428 0.4583 0.5744
0.9504 -1.0300 1.4003 1.7551
-1.6001 0.5811 1.5423 1.9330
-0.5153 0.8008 0.9306 1.1663
-0.7106 -0.5577 0.1081 0.1354
0.1864 0.2581 0.0507 0.0635
-0.8702 -0.1520 0.5078 0.6365
-0.3862 0.4528 0.5933 0.7436
-0.8531 0.1371 0.7002 0.8775
-0.8786 0.2086 0.7687 0.9635
0.6431 0.7323 0.0631 0.0791
1.0368 0.3354 0.4959 0.6216
-1.0619 -1.2663 0.1445 0.1811
0.0600 -0.2569 0.2241 0.2808
-0.6840 -0.4787 0.1452 0.1820
0.2507 0.6593 0.2889 0.3620
0.1328 -0.1339 0.1886 0.2364
-0.2118 -0.0100 0.1427 0.1788
-0.7496 -1.1437 0.2786 0.3492
0.9017 0.0022 0.6361 0.7972
0.5560 0.8943 0.2393 0.2999
-0.1483 -1.1324 0.6959 0.8721
-1.3194 -0.3915 0.6562 0.8224
-0.8098 -2.0478 0.8754 1.0971
-0.3052 -1.1937 0.6282 0.7873
0.5170 -0.6323 0.8127 1.0186
0.6333 -1.3720 1.4180 1.7772
-1.5503 0.7194 1.6049 2.0115
1.8986 -0.7427 1.8677 2.3408
2.3656 -0.3820 1.9428 2.4350
-1.4987 0.4368 1.3686 1.7153
-0.5064 1.3950 1.3444 1.6850
1.2508 0.6081 0.4545 0.5696
-0.1696 -0.5459 0.2661 0.3335
-0.3834 -0.8872 0.3562 0.4465
0.0300 -0.8531 0.6244 0.7826
0.4210 0.3356 0.0604 0.0757
0.0165 2.0690 1.4514 1.8190
-0.2689 1.5595 1.2929 1.6204
1.3385 0.5087 0.5868 0.7354
1.1067 0.3987 0.5006 0.6275
2.0015 -0.6360 1.8650 2.3374
-0.4504 0.6166 0.7545 0.9456
0.3197 -0.6227 0.6664 0.8352
-1.2794 -0.9927 0.2027 0.2541
1.6603 -0.0543 1.2124 1.5195
0.9649 -1.2625 1.5750 1.9739
-0.3380 -0.2459 0.0652 0.0817
-0.8612 2.1456 2.1261 2.6647
0.4976 -1.0538 1.0970 1.3749
-0.2007 -1.3870 0.8388 1.0513
-0.9597 0.6327 1.1260 1.4112
-2.6118 -0.1505 1.7404 2.1813
0.7155 -0.1909 0.6409 0.8033
0.0548 -0.2159 0.1914 0.2399
-0.2775 0.4864 0.5402 0.6770
-1.2364 -0.0736 0.8222 1.0305
-0.8868 -0.6960 0.1349 0.1691
1.2804 -0.2276 1.0664 1.3365
0.5560 -0.9552 1.0686 1.3393
0.4643 -0.6173 0.7648 0.9585
0.4884 -0.6474 0.8031 1.0066
1.3860 0.5479 0.5926 0.7427
-0.9313 0.5375 1.0386 1.3018
-0.3466 -0.3809 0.0243 0.0304
0.7211 -0.1546 0.6192 0.7760
-1.4551 -0.1350 0.9334 1.1699
0.0673 0.4291 0.2559 0.3207
0.3190 -0.1510 0.3323 0.4165
-1.6514 -0.3824 0.8973 1.1246
-1.0128 -1.5745 0.3972 0.4978
-1.2337 -0.7164 0.3658 0.4585
-1.7677 -1.9776 0.1484 0.1860
-0.9519 -0.1155 0.5914 0.7412
1.1165 -0.6071 1.2188 1.5275
-1.7772 0.7592 1.7935 2.2478
0.1343 -0.0458 0.1273 0.1596
0.2270 0.9698 0.5253 0.6583
-0.1697 -0.5589 0.2752 0.3450
2.1011 0.2483 1.3101 1.6420
-0.0374 0.2988 0.2377 0.2980
-0.4209 0.5742 0.7037 0.8819
1.6728 -0.2046 1.3275 1.6638
1.4985 -1.6225 2.2069 2.7659
0.5342 -0.5074 0.7365 0.9231
0.7119 0.8128 0.0713 0.0894
1.0165 -1.2300 1.5885 1.9909
-0.2646 -0.5301 0.1878 0.2353
-1.1488 -0.2888 0.6081 0.7621
-0.4225 0.8703 0.9141 1.1457
0.7990 -1.1515 1.3792 1.7286
0.0344 -0.1892 0.8188 1.0263 mean E(.)
SD pred E(s) pred
-1.9600 -1.9600 -1.6049 -2.0114 2.5% theor, est
1.9600 1.9600 1.6049 2.0114 97.5% theor, est
0.3551 -0.0515 2.5% err
-0.3551 0.0515 97.5% err
Ziehen Sie den Schieberegler nach unten, um die Gesamtsummen anzuzeigen. Jetzt habe ich den gewöhnlichen SD-Schätzer verwendet, um 95% -Konfidenzintervalle um einen Mittelwert von Null zu berechnen, und sie sind um 0,3551 Standardabweichungseinheiten versetzt. Der E (s) -Schätzer ist nur um 0,0515 Standardabweichungseinheiten versetzt. Wenn man die Standardabweichung, den Standardfehler des Mittelwerts oder die t-Statistik schätzt, kann ein Problem vorliegen.
Meine Argumentation lautete wie folgt: Das Populationsmittel zweier Werte kann in Bezug auf a überall sein und liegt definitiv nicht bei , was letztere für ein absolut minimales mögliches Quadrat sorgt, so dass wirσunterschätzen Wesentlichen wie folgt unterschätzen
WLOG lassen , dann ist , das geringstmögliche Ergebnis.
Das heißt, die Standardabweichung berechnet sich zu
,
ist ein verzerrter Schätzer der Populationsstandardabweichung ( ). Beachten Sie , in dieser Formel verringern wir die Freiheitsgrade von um 1 und durch Teilen , also tun wir einige Korrekturen, aber es ist nur asymptotisch richtig ist , und wäre eine bessere sein Daumenregel . Für unser Beispiel würde die Formel ein statistisch unplausibel Minimalwert als, wo ein besseren Erwartungswert () wäre. Für die übliche Berechnung für,leiden s von sehr bedeutenden Unterschätzung genanntkleine Zahl Bias, die nur 1% unterschätzt nähert sichwennetwa ist. Da viele biologische Experimente, ist dies in der Tat ein Problem. Fürbeträgt der Fehler ungefähr 25 Teile in 100.000. Im Allgemeinenimpliziert dieBias-Korrektur für kleine Zahlen, dass der unverzerrte Schätzer der Populationsstandardabweichung einer Normalverteilung ist
Aus Wikipedia unter Creative-Commons-Lizenzen hat man einen Plot der SD-Unterschätzung von
Da SD ein verzerrter Schätzer für die Populationsstandardabweichung ist, kann es nicht der unverzerrte Schätzer für die minimale Varianz der Populationsstandardabweichung sein, es sei denn, wir sind mit der Aussage zufrieden, dass es MVUE als , was ich nicht bin.
In Bezug auf Nicht-Normalverteilungen und etwa unvoreingenommene lesen diese .
Nun kommt die Frage Q1
Kann bewiesen werden, dass das obige MVUE für σ einer Normalverteilung der Stichprobengröße n ist , wobei n eine positive ganze Zahl größer als eins ist?
Hinweis: (aber nicht die Antwort) siehe Wie kann ich die Standardabweichung der Stichprobenstandardabweichung von einer Normalverteilung ermitteln? .
Nächste Frage, Q2
Würde mir bitte jemand erklären, warum wir da es eindeutig voreingenommen und irreführend ist? Das heißt, warum nicht für fast alles E ( s ) verwenden ? Ergänzend ist in den folgenden Antworten klar geworden, dass die Varianz unvoreingenommen ist, ihre Quadratwurzel jedoch voreingenommen ist. Ich würde darum bitten, dass Antworten die Frage beantworten, wann eine unverzerrte Standardabweichung verwendet werden sollte.
Wie sich herausstellt, ist eine teilweise Antwort, dass, um Verzerrungen in der obigen Simulation zu vermeiden, die Varianzen statt der SD-Werte gemittelt worden sein könnten. Um zu sehen, wie sich dies auswirkt, erhalten wir, wenn wir die SD-Spalte oben quadrieren und diese Werte mitteln, 0,9994, dessen Quadratwurzel eine Schätzung der Standardabweichung 0,9996915 ist und dessen Fehler nur 0,0006 für die 2,5% -Schwanz und beträgt -0.0006 für den 95% Schwanz. Beachten Sie, dass dies darauf zurückzuführen ist, dass Varianzen additiv sind. Daher ist die Mittelwertbildung eine fehlerarme Prozedur. Standardabweichungen sind jedoch voreingenommen, und in den Fällen, in denen wir nicht den Luxus haben, Varianzen als Vermittler zu verwenden, müssen wir noch eine Korrektur kleinerer Zahlen vornehmen. Auch wenn wir die Varianz als Vermittler verwenden können, in diesem Fall für Die Korrektur für kleine Stichproben schlägt vor, die Quadratwurzel der unverzerrten Varianz 0,9996915 mit 1,002528401 zu multiplizieren, um 1,002219148 als unverzerrte Schätzung der Standardabweichung zu erhalten. Also, ja, wir können die Korrektur kleiner Zahlen verzögern, aber sollten wir sie deshalb vollständig ignorieren?
Die Frage ist hier, wann wir eine Korrektur für kleine Zahlen verwenden sollten, anstatt ihre Verwendung zu ignorieren, und vor allem haben wir ihre Verwendung vermieden.
In einem anderen Beispiel beträgt die minimale Anzahl von Punkten im Raum, um einen linearen Trend mit einem Fehler zu erstellen, drei. Wenn wir diese Punkte mit gewöhnlichen kleinsten Quadraten anpassen, ist das Ergebnis für viele solcher Anpassungen ein gefaltetes normales Restmuster, wenn es eine Nichtlinearität gibt, und eine Halbnormale, wenn es eine Linearität gibt. Im Halbnormalfall erfordert unser Verteilungsmittel eine kleine Korrektur der Zahl. Wenn wir den gleichen Trick mit 4 oder mehr Punkten versuchen, ist die Verteilung im Allgemeinen nicht normal oder nicht einfach zu charakterisieren. Können wir Varianz verwenden, um diese 3-Punkte-Ergebnisse irgendwie zu kombinieren? Vielleicht vielleicht auch nicht. Probleme hinsichtlich Abständen und Vektoren sind jedoch leichter vorstellbar.