(Sehr) kurze Geschichte
Kurz gesagt, Statistik ist in gewisser Weise wie jedes andere technische Gebiet: Es gibt keine Überholspur .
Lange Geschichte
Bachelor-Studiengänge in Statistik sind in den USA relativ selten. Ein Grund, den ich für richtig halte, besteht darin, dass es ziemlich schwierig ist, alles, was zum Erlernen von Statistik erforderlich ist, in ein Grundstudienprogramm zu packen. Dies gilt insbesondere für Universitäten, an denen ein erheblicher allgemeinbildender Bedarf besteht.
Das Entwickeln der erforderlichen Fähigkeiten (mathematisch, rechnerisch und intuitiv) erfordert viel Aufwand und Zeit. Wenn der Schüler die Analysis und eine angemessene Menge an linearer Algebra und Matrixalgebra beherrscht, kann er beginnen, die Statistik auf einem ziemlich anständigen "operativen" Niveau zu verstehen. Jeder angewandte Statistiker weiß jedoch, dass es ziemlich einfach ist, sich in einem Gebiet wiederzufinden, das nicht mit einem Cookie-Cutter oder einem rezeptbasierten Statistikansatz konform ist. Um wirklich zu verstehen, was sich unter der Oberfläche abspielt, ist dies eine Grundvoraussetzungmathematische und in der heutigen Welt rechnerische Reife, die nur in den späteren Jahren der Grundausbildung wirklich erreichbar ist. Dies ist einer der Gründe, warum eine echte statistische Ausbildung in den USA meistens auf MS-Ebene beginnt (Indien mit seinem speziellen ISI ist eine etwas andere Geschichte. Ein ähnliches Argument könnte für eine Ausbildung in Kanada angeführt werden. Ich kenne mich damit nicht aus In Europa ansässige oder in Russland ansässige Grundstudenten in Statistik, um eine fundierte Meinung zu haben.)
Nahezu jede (interessante) Arbeit würde eine Ausbildung auf MS-Niveau erfordern, und die wirklich interessanten (meiner Meinung nach) Arbeiten erfordern im Wesentlichen eine Doktorandenausbildung.
Da Sie in Mathematik promoviert haben, obwohl wir nicht wissen, in welchem Bereich es sich handelt, sind hier meine Vorschläge für eine Ausbildung auf MS-Niveau. Ich füge einige Bemerkungen in Klammern hinzu, um die Auswahl zu erläutern.
- D. Huff, Wie man mit Statistiken lügt . (Sehr schnell und einfach zu lesen. Zeigt viele konzeptionelle Ideen und Fallstricke, insbesondere bei der Präsentation von Statistiken für Laien.)
- Mood, Graybill und Boes, Einführung in die Theorie der Statistik , 3. Aufl., 1974. ( Einführung in die theoretische Statistik auf MS-Niveau. Sie lernen Stichprobenverteilungen, Punktschätzung und Hypothesentests in einem klassischen, frequentistischen Rahmen. My Meiner Meinung nach ist dies im Allgemeinen besser und etwas fortgeschrittener als moderne Pendants wie Casella & Berger oder Rice.)
- Seber & Lee, Lineare Regressionsanalyse , 2. Aufl. (Beschreibt die Theorie hinter Punktschätzung und Hypothesentest für lineare Modelle, was wahrscheinlich das wichtigste Thema in der angewandten Statistik ist. Da Sie wahrscheinlich einen guten Hintergrund in der linearen Algebra haben, sollten Sie sofort verstehen können, was geometrisch vor sich geht Es bietet viel Intuition und gute Informationen zu Bewertungsproblemen bei der Modellauswahl, Abweichungen von Annahmen, Vorhersagen und robusten Versionen linearer Modelle.)
- Hastie, Tibshirani und Friedman, Elements of Statistical Learning , 2. Aufl., 2009. (Dieses Buch vermittelt ein viel angewandteres Gefühl als das letzte und behandelt im Großen und Ganzen viele moderne Themen des maschinellen Lernens. Der Hauptbeitrag besteht darin, statistische Interpretationen bereitzustellen von vielen Maschinenlern Ideen, die vor allem Unsicherheit in solchen Modellen bei der Quantifizierung zahlt sich aus. Das ist etwas, un (der) adressiert in typischen maschinelles Lernen Bücher. legal kostenlos zu gehen neigt hier .)
- A. Agresti, Kategoriale Datenanalyse , 2. Aufl. (Gute Darstellung des Umgangs mit diskreten Daten in einem statistischen Rahmen. Gute Theorie und gute praktische Beispiele. In gewisser Hinsicht eher traditionell.)
- Boyd & Vandenberghe, Konvexe Optimierung . (Viele der populärsten modernen statistischen Schätz- und Hypothesentestprobleme können als konvexe Optimierungsprobleme formuliert werden. Dies gilt auch für zahlreiche maschinelle Lerntechniken, z. B. SVMs. Mit einem breiteren Verständnis und der Fähigkeit, solche Probleme als konvexe Programme zu erkennen sehr wertvoll ist, glaube ich. Gesetzlich kostenlos zur Verfügung hier .)
- Efron & Tibshirani, Eine Einführung in den Bootstrap . (Sie sollten zumindest mit dem Bootstrap und verwandten Techniken vertraut sein. Für ein Lehrbuch ist es eine schnelle und einfache Lektüre.)
- J. Liu, Monte-Carlo-Strategien im wissenschaftlichen Rechnen oder P. Glasserman, Monte-Carlo-Methoden im Finanzingenieurwesen . (Letzteres klingt sehr spezifisch für ein bestimmtes Anwendungsgebiet, aber ich denke, es wird einen guten Überblick und praktische Beispiele für die wichtigsten Techniken geben. Finanztechnische Anwendungen haben in den letzten zehn Jahren einen beträchtlichen Teil der Monte-Carlo-Forschung vorangetrieben .)
- E. Tufte, Die visuelle Darstellung quantitativer Informationen . (Eine gute Visualisierung und Präsentation von Daten wird auch von Statistikern [stark] unterschätzt.)
- J. Tukey, Exploratory Data Analysis . (Standard. Oldie, aber Goodie. Einige mögen sagen veraltet, aber immer noch einen Blick wert.)
Ergänzungen
Hier sind einige andere Bücher, meist fortgeschrittener, theoretischer und / oder Hilfsbücher, die hilfreich sind.
- FA Graybill, Theorie und Anwendung des linearen Modells . (Altmodischer, furchtbarer Schriftsatz, der sich jedoch auf alle Bereiche von Seber & Lee erstreckt und vieles mehr. Ich sage altmodisch, weil modernere Behandlungen wahrscheinlich dazu tendieren würden, die SVD zu verwenden, um viele Techniken und Beweise zu vereinheitlichen und zu vereinfachen.)
- FA Graybill, Matrizen mit Anwendungen in der Statistik . (Begleittext zum obigen. Eine Fülle guter Matrixalgebra ist hier für die Statistik nützlich. Hervorragende Referenz für den Schreibtisch.)
- Devroye, Gyorfi und Lugosi, eine probabilistische Theorie der Mustererkennung . (Strenger und theoretischer Text zur Quantifizierung der Leistung bei Klassifizierungsproblemen.)
- Brockwell & Davis, Zeitreihe: Theorie und Methoden . (Klassische Zeitreihenanalyse. Theoretische Behandlung. Für mehr Angewandte sind die Texte von Box, Jenkins & Reinsel oder Ruey Tsay anständig.)
- Motwani und Raghavan, Randomisierte Algorithmen . (Probabilistische Methoden und Analysen für Rechenalgorithmen.)
- D. Williams, Wahrscheinlichkeit und Martingale und / oder R. Durrett, Wahrscheinlichkeit: Theorie und Beispiele . (Wenn Sie Maßtheorie gesehen haben, zum Beispiel auf der Ebene von DL Cohn, aber vielleicht nicht Wahrscheinlichkeitstheorie. Beide sind gut, um schnell auf den neuesten Stand zu kommen, wenn Sie bereits mit Maßtheorie vertraut sind.)
- F. Harrell, Regressionsmodellierungsstrategien . (Nicht so gut wie Elemente des statistischen Lernens [ESL], hat aber eine andere und interessante Sichtweise. Behandelt mehr "traditionelle" Themen der angewandten Statistik als ESL und ist daher mit Sicherheit wissenswert.)
Fortgeschrittenere Texte (Doktorat)
Lehmann und Casella, Theorie der Punktschätzung . (Doktorarbeit über Punktschätzung. Ein Teil der Herausforderung in diesem Buch besteht darin, es zu lesen und herauszufinden, was ein Tippfehler ist und was nicht. Wenn Sie sehen, wie Sie ihn schnell erkennen, wissen Sie, dass Sie ihn verstehen. Es gibt eine Menge Übung von diesem Typ gibt es, vor allem, wenn Sie in die Probleme eintauchen.)
Lehmann und Romano, Testing Statistical Hypotheses . (Behandlung von Hypothesentests auf PhD-Niveau. Nicht so viele Tippfehler wie bei TPE oben.)
A. van der Vaart, Asymptotische Statistik . (Ein wunderschönes Buch über die asymptotische Statistik mit guten Hinweisen zu Anwendungsgebieten. Allerdings kein angewendetes Buch. Mein einziges Problem ist, dass eine ziemlich bizarre Schreibweise verwendet wird und Details manchmal unter den Teppich gekehrt werden.)