Tipps und Tricks für den Einstieg in die statistische Modellierung?

10

Ich arbeite im Bereich Data Mining und habe nur sehr wenig formale Ausbildung in Statistik absolviert. In letzter Zeit habe ich viele Arbeiten gelesen, die sich auf Bayes'sche Paradigmen für Lernen und Bergbau konzentrieren, was ich sehr interessant finde.

Meine Frage ist (in mehreren Teilen), ob es angesichts eines Problems einen allgemeinen Rahmen gibt, anhand dessen es möglich ist, ein statistisches Modell zu erstellen. Was tun Sie als Erstes, wenn Sie einen Datensatz erhalten, von dem Sie den zugrunde liegenden Prozess modellieren möchten? Gibt es gute Bücher / Tutorials, die diesen Prozess erklären, oder ist es eine Frage der Erfahrung? Steht bei der Erstellung Ihres Modells die Schlussfolgerung im Vordergrund oder möchten Sie zunächst die Daten beschreiben, bevor Sie sich Gedanken darüber machen, wie Sie sie für die Berechnung verwenden sollen?

Jeder Einblick wäre sehr dankbar! Vielen Dank.

— Nick
quelle

4

Hallo Nick - willkommen im Lebenslauf. Ihre Frage ist sehr weit gefasst; Sie haben vielleicht besseres Glück, gute Antworten zu erhalten, wenn Sie es in kleinere Fragen aufteilen (und wenn Sie dies tun, werden Sie möglicherweise feststellen, dass einige davon hier bereits beantwortet wurden). Zumindest sollten Sie Ihre Frage jedoch als "Community-Wiki" markieren. Das bedeutet im Grunde, dass anstelle des hier üblichen konkurrierenden Antwortformats alle Antworten als Ganzes als die Antwort betrachtet werden.

— Matt Parker

1

@Matt Das CW-Kontrollkästchen wird für eine Frage nicht mehr angezeigt. Ein Mod muss eine Frage nach Bedarf als CW markieren.

@ Nick..Ich bin auch neu. Ich denke, eine allgemeine Sache und die wichtigste Sache, die man beachten muss, ist, wie Sie Ihre Ausgabevariable beschreiben möchten. Ist sie kontinuierlich, ist sie binär? Denn am Ende des Tages möchten Sie eine Ausgabevariable beobachten / modellieren. Das nächste, was ich denken würde, ist, wie die erforderliche Variable modelliert werden kann. Wenn die Variable dichotom ist, ist die Prozedur ein Logit-Modell. Die nächste Überlegung wären dann Daten, deren Kern und die verschiedene Probleme, auf die man stößt. Ich hoffe, das macht Sinn.

— Ayush Biyani

6

In der Statistik beginnen Sie wie in Data Mining mit Daten und einem Ziel. In der Statistik liegt ein großer Schwerpunkt auf Inferenz, dh der Beantwortung von Fragen auf Bevölkerungsebene anhand einer Stichprobe. Beim Data Mining liegt der Schwerpunkt normalerweise auf der Vorhersage: Sie erstellen aus Ihrer Stichprobe ein Modell (Trainingsdaten), um die Testdaten vorherzusagen.

Der Prozess in der Statistik ist dann:

Untersuchen Sie die Daten mithilfe von Zusammenfassungen und Grafiken. Je nachdem, wie datengesteuert der Statistiker ist, sind einige aufgeschlossener und betrachten die Daten aus allen Blickwinkeln, während andere (insbesondere Sozialwissenschaftler) die Daten durch die Linse des betrachten Frage von Interesse (z. B. insbesondere die interessierenden Variablen und nicht andere)
1. Wählen Sie eine geeignete statistische Modellfamilie (z. B. lineare Regression für ein kontinuierliches Y, logistische Regression für ein binäres Y oder Poisson für Zähldaten) und führen Sie die Modellauswahl durch
2. Schätzen Sie das endgültige Modell
3. Testen Sie die Modellannahmen, um sicherzustellen, dass sie angemessen erfüllt werden (anders als beim Testen auf Vorhersagegenauigkeit beim Data Mining).
4. Verwenden Sie das Modell für die Inferenz - dies ist der Hauptschritt, der sich vom Data Mining unterscheidet. Das Wort "p-Wert" kommt hier an ...

Werfen Sie einen Blick auf ein Lehrbuch mit grundlegenden Statistiken und finden Sie ein Kapitel über explorative Datenanalyse, gefolgt von einigen Verteilungen (die bei der Auswahl vernünftiger Näherungsmodelle helfen), dann Inferenzmodellen (Konfidenzintervalle und Hypothesentests) und Regressionsmodellen.

Ich habe Ihnen den klassischen statistischen Prozess beschrieben. Ich habe jedoch viele Probleme damit. Der Fokus auf Inferenz hat die Felder vollständig dominiert, während die Vorhersage (die äußerst wichtig und nützlich ist) nahezu vernachlässigt wurde. Wenn Sie sich außerdem ansehen, wie Sozialwissenschaftler Statistiken für Schlussfolgerungen verwenden, werden Sie feststellen, dass sie diese ganz anders verwenden! Mehr dazu erfahren Sie hier

— Galit Shmueli
quelle

2

In Bezug auf Bücher ist "The Elements of Statistical Learning" von Hastie, Tibshirani und Friedman sehr gut.

Das vollständige Buch ist auf der Website der Autoren verfügbar . Vielleicht möchten Sie einen Blick darauf werfen, ob es überhaupt für Ihre Bedürfnisse geeignet ist.

— NPE
quelle

2

Für (Online-) Referenzen würde ich empfehlen, Andrew Moores Tutorial-Folien zu Statistical Data Mining zu lesen .

Es gibt viele Lehrbücher zum Thema Data Mining und maschinelles Lernen. Ein guter Ausgangspunkt sind vielleicht Principles of Data Mining von Hand et al. und Introduction to Machine Learning von Alpaydin.

— chl
quelle

1

Das beste einführende Bayes'sche Buch, das ich gefunden habe, ist Data Analysis - A Bayesian Tutorial . Es ist sehr praktisch.

— John Salvatier
quelle