Empfehlungen für nichttechnische und dennoch tiefgründige Artikel in der Statistik

24

Die Inspiration für diese Frage stammt aus dem bekannten Artikel Statistical Modeling: The Two Cultures von Leo-Breiman (Open Access verfügbar). Der Autor vergleicht zwei seiner Meinung nach unterschiedliche Ansätze zur Datenanalyse und geht dabei auf Schlüsselideen der klassischen Statistik und des maschinellen Lernens ein. Der Artikel ist jedoch für ein breites Publikum verständlich - wohl für jeden, der mit Daten arbeitet, unabhängig davon, ob er bereits auf Doktorandenebene Statistik betrieben hat oder nur einen Einführungskurs absolviert hat. Darüber hinaus ist der Artikel anregend . Das heißt, es erzeugt leicht eine Diskussion (wie aus der Reihe lebhafter Kommentare hervorgeht, die in derselben Ausgabe veröffentlicht wurden).

Ich bin gespannt auf weitere Artikel mit diesen Eigenschaften. Das heißt, Artikel, die:

Berühren Sie grundlegende Konzepte in der Statistik / Datenanalyse
Kann von einem breiten Publikum in Bezug auf Variation im Forschungsschwerpunkt und formale statistische Ausbildung verstanden werden
Anregung zur Diskussion, sei es durch Einsicht oder Kontroversen

references

— Richard Border
quelle

2

Die Antworten waren bisher sehr interessant! Lass sie kommen. Natürlich akzeptiere ich keine der Antworten gemäß meta.stats.stackexchange.com/questions/409/…

— Richard Border

2

Es gibt keinen Königsweg für Statistiken.

— Aksakal

15

Schmueli, Galit. "Erklären oder vorhersagen?" Statistical science (2010): 289 & ndash; 310.

Ich glaube, dass es Ihren drei Aufzählungspunkten entspricht.

Es geht um erklärende versus vorhersagende Modellierung (die Begriffe sollten selbsterklärend sein) und stellt fest, dass Unterschiede zwischen ihnen häufig nicht erkannt werden.

Es wird darauf hingewiesen, dass abhängig vom Ziel der Modellierung (erklärend gegenüber vorhersagend) unterschiedliche Modellbildungsstrategien verwendet und unterschiedliche Modelle als "das beste" Modell ausgewählt werden können.

Es ist ein ziemlich umfangreiches Papier und eine angenehme Lektüre. Eine Diskussion darüber ist in Rob J. Hyndmans Blog-Post zusammengefasst . Eine verwandte Diskussion zu Cross Validated befindet sich in diesem Thread (mit vielen positiven Stimmen). Dies ist eine weitere (nicht beantwortete) Frage zum selben Thema .

— Richard Hardy
quelle

12

Lehmann, Erich L. "Die Fisher, Neyman-Pearson-Theorien zum Testen von Hypothesen: Eine Theorie oder zwei?" Journal of the American Statistical Association 88.424 (1993): 1242 & ndash; 1249.

Es ist vielen nicht bekannt, aber als die Giganten des Berufs noch unter uns waren, kamen sie nicht gut miteinander aus. In der Debatte über die Grundlagen des Hypothesentests, ob er induktiv oder deduktiv sein soll, flogen einige ziemlich ernste Beleidigungen zwischen Fisher einerseits und Neyman-Pearson andererseits umher. Und das Thema wurde zu ihren Lebzeiten nie geklärt.

Lange nachdem alle vorbei sind, versucht Lehmann, die Lücke zu schließen und macht meiner Meinung nach einen guten Job, da er zeigt, dass die Ansätze sich ergänzen und nicht ausschließen. Das lernen die Schüler heutzutage übrigens. Sie müssen ein paar grundlegende Dinge über das Testen von Hypothesen wissen, aber Sie können dem Artikel auch ohne Probleme folgen.

— JohnK
quelle

1

Danke für das Zitat. Ich habe einmal eine Frage zu dem angeblichen Konflikt zwischen F - und NP - Ansätzen gestellt: stats.stackexchange.com/questions/112769 , und trotz viel Aufmerksamkeit und Aufwertung bin ich von keiner der vorhandenen Antworten überzeugt (und habe es auch nicht getan) akzeptieren alle). Ich habe vor, zu diesem Thread zurückzukehren und etwas zu lesen / Kopfgeld zu geben oder so, aber ich finde keine Zeit. Wenn Sie mit Lehmanns Artikel vertraut sind, möchte ich Sie ermutigen, dort eine Antwort beizutragen.

— Amöbe sagt Reinstate Monica

@amoeba Ich habe Lehmanns Artikel immer wieder gelesen, er ist sehr lesbar, aber ich glaube nicht, dass ich die Angelegenheit so gründlich recherchiert habe wie Sie. Also, wann immer Sie Zeit haben, ist es eine gute Idee für Sie, darüber nachzudenken und seinen Standpunkt zu sehen. Besonders aufschlussreich ist die Diskussion um das Behrens-Fisher-Problem.

— JohnK

Danke für das Teilen. Vielleicht war alles, was ich gehört habe, eher einseitig, aber alles, was ich über Sir Ron Fisher gehört habe, ist, dass er ein ziemlich unangenehmer Mann war, um es gelinde auszudrücken. Er hatte auch einige fragwürdige Meinungen über den Zusammenhang zwischen Tabakkonsum und Lungenkrebs .

— Phil

Eine "leichtere" Alternative zum Artikel ist Christensen, Ronald. "Testen von Fisher, Neyman, Pearson und Bayes." The American Statistician 59.2 (2005): 121-126. Ich fand es angenehm.

— Richard Hardy

9

Wilk, MB und Gnanadesikan, R. 1968. Wahrscheinlichkeitsplotmethoden für die Analyse von Daten. Biometrika 55: 1-17. Jstor Link, wenn Sie Zugriff haben

Dieses Papier ist zum Zeitpunkt meines Schreibens fast 50 Jahre alt, fühlt sich aber immer noch frisch und innovativ an. Anhand einer Vielzahl interessanter und aussagekräftiger Beispiele vereinen und erweitern die Autoren eine Vielzahl von Ideen zum Plotten und Vergleichen von Verteilungen im Rahmen von QQ- (Quantil-Quantil) und PP-Plots (Wahrscheinlichkeit-Wahrscheinlichkeit). Verteilungen bedeuten hier im Großen und Ganzen alle Datensätze oder Zahlen (Residuen, Kontraste usw. usw.), die bei ihren Analysen auftreten.

Bestimmte Versionen dieser Diagramme reichen mehrere Jahrzehnte zurück, ganz offensichtlich Diagramme mit normaler Wahrscheinlichkeit oder normaler Punktzahl. Hierbei handelt es sich um Quantil-Quantil-Diagramme, d. h. Diagramme von beobachteten Quantilen gegenüber erwarteten oder theoretischen Quantilen aus einer Probe gleicher Größe mit normaler (Gauß'scher) Verteilung. Die Autoren zeigen jedoch bescheiden und dennoch zuversichtlich, dass dieselben Ideen leicht - und praktisch mit modernem Computing - erweitert werden können, um andere Arten von Quantilen zu untersuchen und die Ergebnisse automatisch zu zeichnen.

Die Autoren, damals beide bei Bell Telephone Laboratories, verfügten über hochmoderne Computereinrichtungen, und selbst viele Universitäten und Forschungseinrichtungen brauchten etwa ein Jahrzehnt, um aufzuholen. Sogar jetzt verdienen die Ideen in diesem Papier eine breitere Anwendung als sie erhalten werden. Es handelt sich um einen seltenen Einführungstext oder Kurs, der eine dieser Ideen außer dem normalen QQ-Plot enthält. Histogramme und Box-Plots (von denen jedes oft sehr nützlich, aber dennoch umständlich und in verschiedener Hinsicht begrenzt ist) sind weiterhin die Hauptgrundlagen für die Einführung von Verteilungsplots.

Persönlich mag ich es, wenngleich die Hauptideen dieses Papiers den größten Teil meiner Karriere lang bekannt waren, es alle paar Jahre erneut zu lesen. Ein guter Grund ist die Freude an der Art und Weise, wie die Autoren einfache, aber wirkungsvolle Ideen mit seriösen Beispielen zum Tragen bringen. Ein weiterer guter Grund ist die Art und Weise, wie das Papier, das kurz und bombastisch geschrieben ist, auf Erweiterungen der Hauptideen hinweist. Mehr als einmal habe ich Wendungen in Bezug auf die Hauptideen entdeckt, die explizit in Hinweisen und weiteren Kommentaren behandelt werden.

Dies ist nicht nur ein Artikel für diejenigen, die sich besonders für statistische Grafiken interessieren. Meiner Meinung nach sollte dies jedoch jeden einschließen, der sich für Statistiken jeglicher Art interessiert. Es fördert das Denken über Verteilungen, die praktisch hilfreich sind, um die statistischen Fähigkeiten und Erkenntnisse eines Menschen zu entwickeln.

— Nick Cox
quelle

2

Dies ist eine gute Wahl. Ich habe das mehrmals gelesen - als ich die Namen der Autoren in Ihrer Antwort sah, wusste ich, um welches Papier es sich handelte, und wollte es sofort wieder lesen. Ich glaube, ich habe hier irgendwo eine Kopie davon ...

— Glen_b -Reinstate Monica

6

Ioannidis, John PA "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind." PLoS Medicine (2005)

Ioannidis, John PA "Wie man mehr veröffentlichte Forschung wahr macht." PLoS Medicine (2014)

Muss für jeden Forscher / Statistiker / Analysten gelesen werden, der die Gefahren vermeiden möchte, Statistiken in der Forschung falsch zu verwenden und zu interpretieren. Der Artikel aus dem Jahr 2005 war der am häufigsten aufgerufene in der Geschichte der Public Library of Science und hat viele Kontroversen und Diskussionen ausgelöst.

— LindsayL
quelle

6

Tukey, JW (1960) Schlussfolgerungen vs. Entscheidungen Technometrics 2 (4): 423-433

Dieses Papier basiert auf einem Vortrag von Tukey nach dem Abendessen, und es gibt einen Kommentar, der "erhebliche Diskussionen zur Folge hatte", sodass er mindestens dem Drittel Ihrer Punktzahl entspricht.

Ich habe dieses Papier zum ersten Mal gelesen, als ich einen Doktortitel in Ingenieurwissenschaften abschloss, und habe die Erforschung der praktischen Aspekte der Datenanalyse geschätzt.

— Tony Ladson
quelle

Link funktioniert nicht. Dies funktioniert

— kjetil b halvorsen

5

Efron und Morris, 1977, Steins Paradox in Statistics .

Efron und Morris verfassten in den 1970er Jahren eine Reihe von Fachartikeln zum James-Stein-Schätzer, in denen sie Steins "Paradoxon" im Kontext von Empirical Bayes darlegten. Das Papier von 1977 ist ein populäres, das in Scientific American veröffentlicht wurde .

Es ist eine großartige Lektüre.

— Amöbe sagt Reinstate Monica
quelle

3

Nun, trotz des größeren Interesses an Roy Model unter den Ökonomen (aber ich kann mich irren) ist seine Originalarbeit "Some Thoughts on the Distribution of Earnings" von 1951 eine aufschlussreiche und nichttechnische Diskussion über das Problem der Selbstauswahl. Dieses Papier diente als Inspiration für die vom Nobelpreis James Heckman entwickelten Auswahlmodelle. Obwohl alt, denke ich, dass es Ihren drei Aufzählungspunkten entspricht.

— Rodrigo Remedio
quelle