Was sind interessante und gut geschriebene Papiere zur angewandten Statistik?

28

Was sind einige gute Papiere, die Anwendungen von Statistiken beschreiben, die Spaß machen und informativ zu lesen wären? Um ganz klar zu sein, ich suche nicht wirklich Papiere, die neue statistische Methoden beschreiben (z. B. eine Arbeit zur Regression des kleinsten Winkels), sondern Papiere, die beschreiben, wie man reale Probleme löst.

Ein Papier, das zu meiner Suche passt, ist beispielsweise das Klimapapier des zweiten Cross-Validated Journal Club . Ich suche eher nach statistischen Papieren als nach Papieren zum maschinellen Lernen, aber ich denke, es ist eine Art unscharfe Unterscheidung (ich würde die Netflix-Preispapiere als etwas Grenzwertiges und ein Papier zur Stimmungsanalyse als etwas klassifizieren Ich suche nicht ).

Ich frage, weil die meisten statistischen Anwendungen, die ich gesehen habe, entweder die kleinen Ausschnitte sind, die Sie in Lehrbüchern gesehen haben, oder Dinge, die sich auf meine eigene Arbeit beziehen, also möchte ich ein wenig darauf eingehen.

references application

— raegtin
quelle

4

Haben Sie allgemeine Interessen, die Sie auflisten möchten? Das könnte helfen, Vorschläge zu führen. Anwendungen der Statistik sind in einer bemerkenswert breiten Palette von Bereichen weit verbreitet.

— Kardinal

1

@ Kardinal, nein, keine besonderen Interessen - der Zweck war es, mich von dem zu trennen, was ich normalerweise lese, also versuche ich, keine Antworten einzuschränken. (Dies macht die Frage vielleicht etwas zu weit

— gefasst

1

Ein klassisches Muss, vor allem, weil alle eingeführten Wahrscheinlichkeitsmodelle durch "physikalische" Überlegungen zum Problem motiviert sind und nicht aus dem Hut gezogen werden: F. Mosteller, DL Wallace (1963): Schlussfolgerung aus einem Autorenproblem: Eine vergleichende Studie über Diskriminierungsmethoden, die auf die Urheberschaft der umstrittenen föderalistischen Arbeiten angewendet wurden , J. Am. Stat. Assoc. 58 (302), S. 275–309. Auch bei diesem Link .

— 2.

12

Für mich ist es etwas schwierig zu erkennen, welches Papier für Sie von Interesse sein könnte. Lassen Sie mich daher versuchen, die folgenden Vorschläge aus der psychometrischen Literatur zu machen:

Borsboom, D. (2006). Der Angriff der Psychometriker . Psychometrika , 71 , 425 & ndash; 440.

für das Anziehen der Szene (Warum müssen wir statistische Modelle verwenden, die die zugrunde liegenden Hypothesen, die in der psychologischen Forschung häufig anzutreffen sind, besser widerspiegeln?) und

Borsboom, D. (2008). Psychometrische Perspektiven auf diagnostische Systeme . Journal of Clinical Psychology , 64 , 1089 & ndash; 1108.

für eine angewandte Perspektive auf diagnostische Medizin (Übergang von Ja / Nein-Bewertung, wie sie in der DSM-IV verwendet wird, zu dem für die DSM-V vorgesehenen "dimensionalen" Ansatz). Eine größere Übersicht über latente Variablenmodelle in der biomedizinischen Forschung, die mir gefällt, ist:

Rabe-Hesketh, S. und Skrondal, A. (2008). Klassische latente Variablenmodelle für die medizinische Forschung . Statistical Methods in Medical Research , 17 (1) , 5-32.

— chl
quelle

@ chl (+1) diese Borsboom-Papiere waren wundervoll, sie haben meine Überlegungen zur Messung wirklich erweitert

— richiemorrisroe

+1, ich mag auch Borsboom. Für diejenigen, die sich für den Artikel The Attack interessieren, würde sich meiner Meinung nach auch "The Concept of Validity", rhowell.ba.ttu.edu/borsboomValidity2004.pdf , interessieren . Obwohl es etwas ausführlicher ist, ist es nicht so einfach zu folgen wie der Attack-Artikel.

— Andy W

10

Hier sind fünf häufig zitierte Artikel aus den letzten 40 Jahren des Journals der Royal Statistical Society, Reihe C: Angewandte Statistik mit einer eindeutigen Anwendung im Titel, die mir beim Durchsuchen der Suchergebnisse im Web of Knowledge aufgefallen ist:

Sheila M. Gore, Stuart J. Pocock und Gillian R. Kerr (1984). Regressionsmodelle und nicht proportionale Gefahren bei der Analyse des Brustkrebsüberlebens. Vol. 33, No. 2, S. 176-195. (100 mal zitiert) ( Kostenloses PDF )
John Haslett und Adrian E. Raftery (1989). Raum-Zeit-Modellierung mit Abhängigkeit vom Langzeitgedächtnis: Bewertung der Windkraftressource Irlands. Vol. 38, Nr. 1, S. 1-50 (156-mal zitiert)
Stuart G. Coles und Jonathan A. Tawn (1994). Statistische Methoden für multivariate Extreme: Eine Anwendung auf die Tragwerksplanung. Vol. 43, Nr. 1, S. 1-48. (99 mal zitiert)
Nicholas Lange und Scott L. Zeger (1997). Nichtlineare Fourier-Zeitreihenanalyse zur Abbildung des menschlichen Gehirns mittels funktioneller Magnetresonanztomographie. Vol. 46, Nr. 1, S. 1-29. (94 mal zitiert)
James P. Hughes, Peter Guttorp und Stephen P. Charles (1999). Ein nicht homogenes Hidden-Markov-Modell für das Auftreten von Niederschlägen. Vol. 48, Nr. 1, S. 15-30. (103 mal zitiert)

— onestop
quelle

9

Auf einer breiteren Ebene würde ich den Artikel ["Statistical Modeling: The Two Cultures"] [1] von Leo Breiman aus dem Jahr 2001 (zitiert 515) empfehlen. Ich weiß, dass er kürzlich vom Journal Club veröffentlicht wurde und fand ihn wirklich interessant. Ich habe die Zusammenfassung zusammengestellt.

Abstrakt. Es gibt zwei Kulturen bei der Verwendung statistischer Modelle, um Schlussfolgerungen aus Daten zu ziehen. Man geht davon aus, dass die Daten von einem gegebenen stochastischen Datenmodell erzeugt werden. Der andere verwendet algorithmische Modelle und behandelt den Datenmechanismus als unbekannt. Die statistische Gemeinschaft hat sich der fast ausschließlichen Verwendung von Datenmodellen verschrieben. Dieses Engagement hat zu irrelevanten Theorien und fragwürdigen Schlussfolgerungen geführt und Statistiker davon abgehalten, an einer Vielzahl interessanter aktueller Probleme zu arbeiten. Die algorithmische Modellierung hat sich sowohl in der Theorie als auch in der Praxis in Bereichen außerhalb der Statistik rasant entwickelt. Es kann sowohl für große komplexe Datensätze als auch als genauere und informativere Alternative zur Datenmodellierung für kleinere Datensätze verwendet werden. Wenn unser Ziel als Feld ist, Daten zu verwenden, um Probleme zu lösen,

[1]: https://doi.org/10.1214/ss/1009213726 (offener Zugang)

— Parbury
quelle

8

Aus der Perspektive der genetischen Epidemiologie würde ich jetzt die folgende Reihe von Artikeln über genomweite Assoziationsstudien empfehlen :

Cordell, HJ und Clayton, DG (2005). Genetische Assoziationsstudien . Lancet 366, 1121–1131.
Cantor, RM, Lange, K. und Sinsheimer, JS (2010). Priorisierung der GWAS-Ergebnisse: Eine Überprüfung der statistischen Methoden und Empfehlungen für deren Anwendung . The American Journal of Human Genetics 86, 6–22.
Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Validierung, Erweiterung und Verfeinerung genomweiter Assoziationssignale . Nature Reviews Genetics 10, 318-329.
Balding, DJ (2006). Ein Tutorial zu statistischen Methoden für Populationsassoziationsstudien . Nature Reviews Genetics 7, 781-791.
Green, AE et al. (2008). Verwendung genetischer Daten in der kognitiven Neurowissenschaft: von wachsenden Schmerzen zu echten Einsichten . Nature Reviews Neuroscience 9, 710-720.
McCarthy, MI et al. (2008). Genomweite Assoziationsstudien für komplexe Merkmale: Konsens, Unsicherheit und Herausforderungen . Nature Reviews Genetics 9, 356-369.
Psychiatrische GWAS-Konsortialkommission (2009). Genomweite Assoziationsstudien: Geschichte, Begründung und Perspektiven für psychiatrische Störungen . American Journal of Psychiatry 166 (5), 540-556.
Sebastiani, P. et al. (2009). Genomweite Assoziationsstudien und die genetische Zerlegung komplexer Merkmale . American Journal of Hematology 84 (8), 504 & ndash; 15.
Das Wellcome Trust Case Control Consortium (2007). Genomweite Assoziationsstudie von 14.000 Fällen von sieben Volkskrankheiten und 3.000 gemeinsamen Kontrollen . Nature 447, 661 & ndash; 678.
Das Wellcome Trust Case Control Consortium (2010). Genomweite Assoziationsstudie von CNVs in 16.000 Fällen von acht Volkskrankheiten und 3.000 gemeinsamen Kontrollen . Nature 464, 713 & ndash; 720.

— chl
quelle

3

Jim Bergers Übersichtsartikel: http://www.stat.duke.edu/~berger/papers.html

Sie könnten mit Could Fisher beginnen, Jeffreys und Neyman haben sich auf Tests geeinigt?

— John D. Cook
quelle

2

Ein Artikel mit frühem Einfluss auf die statistische Bioinformatik-Forschung:

Jelizarow et al . Überoptimismus in der Bioinformatik: eine Illustration . Bioinformatik, 2010

Es sorgt für eine interessante Diskussion über Verzerrungen, Überanpassung und das Fischen nach Bedeutung.

— Borlaug
quelle