Wie sollen winzige


62

Für einige Tests in Rgibt es eine Untergrenze für die Berechnungen von . Ich bin mir nicht sicher, warum es diese Nummer ist, ob es einen guten Grund dafür gibt oder ob es nur willkürlich ist. Viele andere Statistikpakete werden nur verwendet , daher ist dies ein viel höheres Maß an Präzision. Aber ich habe nicht zu viele Artikel gesehen, in denen oder gemeldet wurden .2.2210160.0001p<2.221016p=2.221016

Ist es eine gängige / bewährte Methode, diesen berechneten Wert zu melden, oder ist es typischer, etwas anderes (wie p < 0.000000000000001) zu melden ?


Wenn Sie einen so kleinen p-Wert erhalten und den tatsächlichen p-Wert berechnen möchten, können Sie diese Funktion in excel = TDIST (t, df, 2) verwenden. Addieren Sie die Werte Ihres 't' und df und Sie erhalten den tatsächlichen Wert p-value ta

7
@Tahzeeb gibt es einen Grund, warum Excel eine genauere Schätzung als R zurückgeben würde ..? Soweit ich weiß, ist es viel weniger präzise.
Tim

...But I haven't seen too many papers reporting p<2.22⋅10−16....Sehen Sie einige GWAS-Papiere , es gibt viele Papiere, die Ergebnisse für p-Werte in Hunderten zeigen, zB: Prostatakrebs-KLK-Region, p = 9x10 ^ -186.
zx8754

Antworten:


87

Es gibt einen guten Grund dafür.

Den Wert finden Sie über noquote(unlist(format(.Machine)))

           double.eps        double.neg.eps           double.xmin 
         2.220446e-16          1.110223e-16         2.225074e-308 
          double.xmax           double.base         double.digits 
        1.797693e+308                     2                    53 
      double.rounding          double.guard     double.ulp.digits 
                    5                     0                   -52 
double.neg.ulp.digits       double.exponent        double.min.exp 
                  -53                    11                 -1022 
       double.max.exp           integer.max           sizeof.long 
                 1024            2147483647                     4 
      sizeof.longlong     sizeof.longdouble        sizeof.pointer 
                    8                    12                     4 

Wenn Sie sich die Hilfe ansehen, ( ?".Machine"):

double.eps  

the smallest positive floating-point number x such that 1 + x != 1. It equals 
double.base ^ ulp.digits if either double.base is 2 or double.rounding is 0; 
otherwise, it is (double.base ^ double.ulp.digits) / 2. Normally 2.220446e-16.

Es handelt sich im Wesentlichen um einen Wert, bei dessen Unterschreitung Sie ziemlich sicher sein können, dass der Wert numerisch bedeutungslos ist - da ein kleinerer Wert wahrscheinlich keine genaue Berechnung des Werts darstellt, den wir zu berechnen versucht haben. (Nach einer kleinen numerischen Analyse, die davon abhängt, welche Berechnungen von der spezifischen Prozedur durchgeführt wurden, besteht eine gute Chance, dass numerische Bedeutungslosigkeit darüber hinausgeht.)

Aber die statistische Bedeutung ist schon viel früher verloren gegangen. Beachten Sie, dass p-Werte von Annahmen abhängen. Je weiter Sie bis zum äußersten Ende vordringen, desto stärker wird der wahre p-Wert (und nicht der von uns berechnete Nennwert) von den falschen Annahmen beeinflusst, in einigen Fällen sogar dann, wenn sie auftreten bist nur ein bisschen falsch. Da die Annahmen einfach nicht alle genau erfüllt sein werden, können mittlere p-Werte einigermaßen genau sein (in Bezug auf die relative Genauigkeit, möglicherweise nur um einen bescheidenen Bruchteil), aber extrem kleine p-Werte können um viele Größenordnungen ungenau sein Größe.

Das heißt, dass die übliche Praxis (so etwas wie das von Ihnen genannte "<0,0001" ist in Paketen üblich, oder die von Jaap in seiner Antwort erwähnte APA-Regel) wahrscheinlich nicht so weit von der sinnvollen Praxis entfernt ist, sondern der ungefähre Zeitpunkt, an dem die Dinge geschehen Die Bedeutung zu verlieren, außer zu sagen, dass es sehr, sehr klein ist , wird natürlich in Abhängigkeit von den Umständen sehr unterschiedlich sein.

Dies ist ein Grund, warum ich keine allgemeine Regel vorschlagen kann - es kann nicht eine einzige Regel geben, die auch nur aus der Ferne für alle geeignet ist -, die Umstände ein wenig zu ändern und die breite graue Linie, die den Wechsel von etwas Sinnvollem zu Relativem markiert bedeutungslos wird sich ändern, manchmal auf lange Sicht.

Wenn Sie genügend Informationen über die genauen Umstände bestimmen sind (zB es eine Regression ist, mit diesem viel Nicht - Linearität, dass Ausmaß der Änderung in diesen unabhängigen Variablen, diese Art und Menge der Abhängigkeit in dem Fehlerterm, dass Art und Menge der Heteroskedastie, Aufgrund dieser Form der Fehlerverteilung) konnte ich für Sie 'wahre' p-Werte simulieren, um sie mit den nominellen p-Werten zu vergleichen, sodass Sie sehen konnten, wann sie zu unterschiedlich waren, als dass der nominelle Wert irgendeine Bedeutung hätte.

Aber das führt uns zum zweiten Grund, warum ich - selbst wenn Sie genügend Informationen angegeben haben, um die wahren p-Werte zu simulieren - selbst für diese Umstände keinen Grenzwert festlegen konnte.

Was Sie melden, hängt von den Vorlieben der Menschen ab - Ihrer und Ihrer Zielgruppe. Stellen Sie sich vor, Sie haben mir genug über die Umstände erzählt, um zu entscheiden, dass ich die Linie mit einem nominalen von 10 - 6 zeichnen möchte .p106

Schön und gut, denken wir vielleicht - außer Ihrer eigenen Präferenzfunktion (was für Sie richtig aussieht, war, dass Sie den Unterschied zwischen den nominalen p-Werten, die von Statistikpaketen angegeben werden, und denjenigen, die sich aus der Simulation ergeben, betrachten, wenn Sie eine bestimmte Menge annehmen Englisch: www.mjfriendship.de/en/index.php?op...=view&id=167 (bei fehlgeschlagenen Annahmen) könnte es auf und die Redakteure des Journals, das Sie einreichen möchten, könnten ihre pauschale Regel auf 10 - 4 abschneiden lassen , während das nächste Journal es auf 10 - 3 setzen könnte und Als nächstes gibt es möglicherweise keine allgemeine Regel und der von Ihnen angegebene Editor akzeptiert möglicherweise noch niedrigere Werte als die von mir angegebenen.105104103

Wie schlage ich bei fehlendem Wissen über ihre bevorzugten Funktionen und Regeln und fehlendem Wissen über Ihre eigenen Dienstprogramme eine allgemeine Auswahl der zu ergreifenden Maßnahmen vor?

Zumindest kann ich Ihnen sagen, was ich mache (und ich schlage nicht vor, dass dies eine gute Wahl für Sie ist):

106105104

Das ist sicherlich hilfreich, um eine Auswahl zu informieren - aber ich werde die Ergebnisse der Simulation wahrscheinlich ebenso diskutieren wie sie zur Auswahl eines Grenzwerts verwenden, um anderen die Möglichkeit zu geben, ihren eigenen zu wählen.

Eine Alternative zur Simulation besteht darin, einige Prozeduren zu betrachten, die gegenüber den verschiedenen potenziellen Fehlern der Annahme robuster sind * und festzustellen, wie viel Unterschied zum p-Wert daraus werden kann. Ihre p-Werte werden auch nicht besonders aussagekräftig sein, aber sie geben zumindest einen Eindruck davon, wie viel Einfluss sie haben könnten. Wenn einige von denen sehr unterschiedlich sind, gibt es auch eher eine Vorstellung davon, bei welchen Verstößen gegen Annahmen die Auswirkungen untersucht werden sollen. Auch wenn Sie keine dieser Alternativen angeben, ergibt sich ein besseres Bild davon, wie aussagekräftig Ihr kleiner p-Wert ist.

* Beachten Sie, dass wir hier keine Verfahren benötigen, die gegenüber groben Verstößen gegen eine bestimmte Annahme robust sind. diejenigen, die von relativ geringen Abweichungen der jeweiligen Annahme weniger betroffen sind, sollten für diese Übung in Ordnung sein.

Ich werde sagen, dass es in einigen Fällen überraschend sein kann, inwieweit selbst nicht so kleine p-Werte falsch sein können, wenn / wenn Sie zu solchen Simulationen kommen, selbst bei ganz leichten Verstößen. Dies hat mehr dazu beigetragen, die Art und Weise, wie ich einen p-Wert interpretiere, zu verändern, als die spezifischen Grenzwerte, die ich möglicherweise verwende, zu verschieben.

Wenn ich die Ergebnisse eines tatsächlichen Hypothesentests an ein Journal sende, versuche ich herauszufinden, ob sie eine Regel haben. Wenn nicht, neige ich dazu, mich selbst zu befriedigen und dann darauf zu warten, dass sich die Schiedsrichter beschweren.


11
Besonders gut gefällt mir, dass der Kommentar zur statistischen Bedeutung viel früher verloren gegangen ist.
usεr11852 sagt Reinstate Monic

Gute Antwort! Ich schätze all die Details dazu, es klärt auf, warum R diese Nummer gibt. Aber es beantwortet nicht wirklich die Frage, was zu melden ist.
Paul

1
Ich hatte eher das Gefühl, dass ich mich mit dem Thema befasst habe, in dem Sinne, dass ich erklärt habe, warum es nicht verantwortlich ist, einen bestimmten Vorschlag zu machen. Beachten Sie, dass ich erläutere, warum es sinnvoll ist, so etwas wie das in einigen Paketen übliche "<0,0001" zu melden. Es gibt mehrere Gründe, warum ich keine bestimmte Nummer vorschlage - die erste habe ich angegeben. Ich werde auf diesen Grund und den zweiten in einer Bearbeitung eingehen.
Glen_b

paul, ich habe eine ausführlichere diskussion hinzugefügt.
Glen_b

2
Ja, Sie müssen etwas tun. Der Sinn meines ausführlicheren Kommentars bestand darin, zu vermitteln, dass ich Ihnen nicht sagen kann, was Sie tun sollen. Ich kann nur die Themen diskutieren, die zu Ihrer Wahl gehören. Ich hoffe, dass ich das getan habe, aber ich versuche gerne, Probleme weiter zu klären, wenn ich kann.
Glen_b

27

Was allgemein üblich ist, hängt möglicherweise von Ihrem Forschungsgebiet ab. In dem Handbuch der American Psychological Association (APA), einem der am häufigsten verwendeten Zitierstile, heißt es (S. 139, 6. Auflage):

Verwenden Sie keinen Wert, der kleiner als p <0,001 ist


8
Obwohl ich dies auch normalerweise zitiere (+1), bin ich mir nicht sicher, ob diese Empfehlung um eine Dezimalstelle geändert werden muss, da Valen Johnson in PNAS kürzlich Folgendes empfohlen hat : "Machen Sie 0,005 zum Standard-Signifikanzniveau [ ...]. Assoziieren Sie hoch signifikante Testergebnisse mit P-Werten, die unter 0,001 liegen. "
Henrik

3
Gute Antwort. Es gibt keine Styleguides und keine wirklichen Standards in meinen Bereichen, zumindest nicht für p-Werte. Ich arbeite interdisziplinär, aber ich denke, Informatik und HCI wären das Gebiet dafür. Ich denke, der APA-Stil wäre der Ort, an den sich die Autoren wenden würden, da die Methoden im Allgemeinen aus der kognitiven Psychologie oder anderen Bereichen stammen, die der APA abdecken würde.
Paul

10
5σp<106

1
5σzpp0.0001zp

@amoeba Ja, ich denke du hast recht.
Glen_b

14

Solche extremen p-Werte treten häufiger in Bereichen mit sehr großen Datenmengen auf, wie z. B. Genomik und Prozessüberwachung. In diesen Fällen wird es manchmal als -log 10 (p-Wert) angegeben. Siehe zum Beispiel diese Abbildung aus der Natur , in der die p-Werte auf 1e-26 sinken.

-log 10 (p-Wert) wird von Statistikern, mit denen ich bei JMP zusammenarbeite, als "LogWorth" bezeichnet .


21
ppp

8
@BenBolker Obwohl es weniger wahrscheinlich ist als "die NSA hat Ihre Daten manipuliert", sind Ereignisse wie "Ein kosmischer Strahl hat einige wichtige Stellen in Ihren Daten gekippt" weitaus wahrscheinlicher als diese Wahrscheinlichkeiten.
Glen_b

6
p<10100ρ0.9n500

8
p=2.2×10226

9
@amoeba Daniel Wells merkt im Kommentarbereich des Slate Star Codex an, dass science.sciencemag.org/content/363/6425/eaau1043 einen p-Wert von 3,6e-2382 angibt ("kein Tippfehler, zweitausend ", sagt Daniel ), die Ihre um einiges übertrifft!
Mark Amery

-3

In R bedeutet "<2e-16" nicht wörtlich <2e-16, sondern, dass der Wert so klein ist, dass R ihn nicht aufzeichnen oder anzeigen kann.

Im Regressionstest wird p häufig kleiner als 4,940656e-324. Wenn "<2e-16" ausgegeben wird, ist dies eine Zahl, die noch kleiner als 4,940656e-324 ist


Welche Zahl ist " noch kleiner als 4.940656e-324 "?
Sven Hohenstein

8
Ihre Aussage " in R," <2e-16 "bedeutet nicht, dass buchstäblich <2e-16 " falsch ist. Wenn R zeigt <2e-16, der Wert ist als kleiner 2e-16, buchstäblich.
Sven Hohenstein

Sie haben falsch verstanden, was ich gesagt habe. Wenn R "<2e-16" sagt, ist der p-Wert kleiner als 2e-16, aber dies bedeutet nicht, dass der p-Wert kleiner als 2e-16 als "<2e-16" angezeigt wird. Wie ich gezeigt habe, ist es für R kein Problem, den p-Wert einer beliebigen Zahl zwischen [4.940656e-324, 2e-16] in der Zusammenfassung anzuzeigen, während die linke Grenze 2 ^ -1074 ist. Ich gehe also davon aus, dass R nur dann sagt, wenn der p-Wert kleiner als 2 ^ -1074 ist, dass der p-Wert kleiner als ein kleiner Delta-Wert ist. Es kommt nur vor, dass R diesen Delta-Wert als 2e-16 anzeigt. Ich vermute also, dass "<2e-16" in p-Werten tatsächlich "<2 ^ -1074" bedeutet
user3590816

6
Ihre Vermutung ist jedoch falsch: Das versucht @Sven Ihnen mitzuteilen. Schauen Sie sich die Hilfe an format.pvaloder probieren Sie sie einfach aus format.pval(1e-16).
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.