Beispiele für erweiterte Regressionsmodellierung


22

Ich suche eine erweiterte Fallstudie zur linearen Regression, die die erforderlichen Schritte zur Modellierung komplexer, mehrfacher nichtlinearer Beziehungen mithilfe von GLM oder OLS veranschaulicht. Es ist überraschend schwierig, Ressourcen zu finden, die über grundlegende Schulbeispiele hinausgehen: Die meisten Bücher, die ich gelesen habe, gehen nicht weiter als eine logarithmische Transformation der Antwort in Verbindung mit einer BoxCox mit einem Prädiktor oder einem natürlichen Spline im besten Fall. Außerdem haben alle Beispiele, die ich bisher gesehen habe, jedes Datentransformationsproblem in einem separaten Modell behandelt, häufig in einem einzelnen Prädiktormodell.

Ich weiß, was eine BoxCox- oder YeoJohnson-Transformation ist. Was ich suche, ist eine detaillierte, reale Fallstudie, bei der die Reaktion / Beziehung nicht eindeutig ist. Die Antwort ist beispielsweise nicht unbedingt positiv (Sie können also weder log noch BoxCox verwenden), die Prädiktoren haben nichtlineare Beziehungen untereinander und zur Antwort, und die maximale Wahrscheinlichkeit von Datentransformationen scheint keinen Standard von 0,33 zu implizieren oder 0,5 Exponent. Auch die Restvarianz ist nicht konstant (niemals), so dass auch die Antwort transformiert werden muss und Entscheidungen zwischen einer nicht standardmäßigen GLM-Familienregression oder einer Antworttransformation getroffen werden müssen. Der Forscher wird wahrscheinlich Entscheidungen treffen, um eine Überanpassung der Daten zu vermeiden.

BEARBEITEN

Bisher habe ich folgende Ressourcen gesammelt:

  • Regressionsmodellierungsstrategien, F. Harrell
  • Angewandte ökonometrische Zeitreihen, W. Enders
  • Dynamische lineare Modelle mit R, G. Petris
  • Angewandte Regressionsanalyse, D. Kleinbaum
  • Eine Einführung in das statistische Lernen, G. James / D. Witten

Ich habe nur das letzte (ISLR) gelesen und es ist ein sehr guter Text (5 fünf Sterne auf meiner Uhr), obwohl er sich mehr an ML als an fortgeschrittener Regressionsmodellierung orientiert.

Es gibt auch diesen guten Beitrag im Lebenslauf, der einen herausfordernden Regressionsfall darstellt.


8
Ich glaube, Frank Harrells Buch ( amazon.com/… ) könnte hilfreich sein.
Adam Robinsson

@AdamRobinsson ich das TOC ist rührend mehrere relevanten Themen (multivariate Modelle, Splines, multicollinearity) zu sehen, aber sind diese Methoden dargestellt zusammen in einem Beispiel realen oder jedes Thema gesondert erklärt? Weil in der Regel in realen Beispielen alle Probleme bei Ihnen zusammenkommen und es nie offensichtlich ist, wie man sie gut handhabt.
Robert Kubrick

1
Ich habe das ganze Buch noch nicht gelesen, aber die ersten 150 Seiten waren absolut großartig (ich bin kein Statiker, nur ein Enthusiast). Beispiele sind umfangreich und ausgearbeitet. Das Buch wird von dem Paket RMS (Regressionsmodellierungsstrategien) an R begleitet. Ich habe mir auch das Konkurrenzbuch von David Kleinbaum angesehen (Titel leider vergessen), aber es enthielt viel weniger Strategien und Beispiele (und war doppelt so teuer).
Adam Robinsson

3
@RobertKubrick: "Multivariate Regression" bedeutet mit mehr als einer Antwort (siehe Wiki für das hinzugefügte Tag oder hier ). "Multiple Regression" bedeutet mit mehr als einem Prädiktor.
Scortchi

3
Vielleicht möchten Sie sich Applied Econometric Time Series by Enders ansehen. Die neue Version behandelt nichtlineare Modelle gegen Ende des Buches. Fast alle Daten sind auf der Website der St. Louis Fed (über quantmod in R zugänglich) öffentlich verfügbar, sodass Sie Beispiele aus der Praxis nachvollziehen können. Dynamische lineare Modelle mit R haben auch einige Beispiele mit echten Daten, die ziemlich anständig sind.
Eric Brady

Antworten:


10

Regressionsmodellierungsstrategien und ISLR, die bereits von anderen erwähnt wurden, sind zwei sehr gute Vorschläge. Ich habe ein paar andere, die Sie in Betracht ziehen könnten.

Applied Predictive Modeling von Kuhn und Johnson enthält eine Reihe guter Fallstudien und ist sehr praktisch.

-

Verallgemeinerte additive Modelle: Eine Einführung mit R von Simon Wood ist eine gute Behandlung von verallgemeinerten additiven Modellen und wie Sie sie unter Verwendung seines mgcvPakets für R anpassen. Es enthält einige nicht triviale praktische Beispiele. Die Verwendung von GAM-Modellen ist eine Alternative zur Ermittlung der "richtigen" Transformation, da dies auf datenadaptive Weise über eine Spline-Erweiterung und eine bestrafte Maximum-Likelihood-Schätzung erfolgt. Es müssen jedoch noch andere Entscheidungen getroffen werden, z. B. die Auswahl der Verbindungsfunktion.

Der Boost Paket für R passt auch für GAM-Modelle, verwendet jedoch einen anderen Ansatz durch Boosten. Ich empfehle das Tutorial für das Paket (eine der Vignetten).

Ich werde auch die empirische Modellentdeckung und Theorieevaluierung von Hendry und Doornik erwähnen , obwohl ich dieses Buch selbst noch nicht gelesen habe. Es war mir empfohlen worden.


Angewandte prädiktive Modellierung ... so lala. Ich bevorzuge ISLR.
Robert Kubrick

5

Eines der besten Kursmaterialien , das Sie zu fortgeschrittener, multipler, komplexer (einschließlich nichtlinearer) Regression finden können, basiert auf dem Buch Regression Modeling Strategies von Frank E. Harrell Jr.

Das Buch wird in den Kommentaren diskutiert, aber nicht dieses Material, das selbst eine großartige Ressource darstellt.


2

Ich würde das Buch Mostly Harmless Econometrics empfehlen von Joshua D. Angrist und Jörn-Steffen Pischke

Dies ist der realistischste Text, den ich besitze, und er ist super günstig und kostet etwa 26,00 USD. Das Buch ist für den studierten Statistiker / Ökonomen geschrieben, es ist also weit fortgeschritten.

Nun, dieses Buch ist nicht genau das, wonach Sie fragen, in dem Sinne, dass es sich nicht so sehr auf "komplexe, mehrfache nichtlineare Beziehungen" konzentriert wie auf Kerngrundlagen wie Endogenität, Interpretation und cleveres Regressionsdesign.

Aber ich biete dieses Buch an, um zu versuchen, einen Punkt zu machen. Das heißt, wenn es um die praktische Anwendung der Regressionsanalyse geht, haben die schwierigsten Probleme im Allgemeinen nicht damit zu tun, dass unsere Modelle nicht komplex genug sind Modelle! Vielmehr sind die größten Probleme Dinge wie

  1. Endogenität
  2. Wir haben nicht alle Daten, die wir brauchen
  3. Zu viele Daten ... und es ist alles ein Chaos!
  4. Viele Menschen können ihre eigenen Modelle nicht richtig interpretieren (ein Problem, das immer häufiger auftritt, je komplexer Modelle werden).

Ein sicheres Verständnis von GMM, nichtlinearen Filtern und nichtparametrischer Regression deckt praktisch alle von Ihnen aufgeführten Themen ab und kann im Laufe der Zeit erlernt werden. Bei realen Daten können diese Frameworks jedoch unnötig komplex sein, was häufig schädlich ist.

Allzu oft ist es die Fähigkeit, klug zu sein, anstatt vollständig verallgemeinert und hochentwickelt zu sein, die Ihnen bei der Analyse in der realen Welt am meisten zugute kommt. Dieses Buch hilft Ihnen bei Ersterem.


1

Unter Einführung in das statistische Lernen mit R (ISLR) wird ausführlich auf Splines und die polynomiale Regression eingegangen.


1

Ich bin mir nicht sicher, was das Ziel Ihrer Frage ist. Ich kann Greene's Text zur ökonometrischen Analyse empfehlen . Es hat eine Menge Verweise auf Papiere im Inneren. So ziemlich jedes Beispiel in dem Buch verweist auf ein veröffentlichtes Papier.

Schauen Sie sich Beispiel 7.6 "Interaktionseffekte in einem loglinearen Einkommensmodell" auf S.195 an, um einen Eindruck zu bekommen. Es bezieht sich auf eine Arbeit und den Datensatz: Regina T. Riphahn, Achim Wambach und Andreas Million, " Anreizeffekte bei der Nachfrage nach Gesundheitsversorgung: Eine Schätzung der bivariaten Panelanzahl ", Journal of Applied Econometrics, Vol. 18, Nr. 4, 2003, S. 387-405.

Das Beispiel handelt von der Verwendung der loglinearen Modelle und den Interaktionseffekten. Sie können das gesamte Papier oder die Beschreibung dieses Lehrbuchs lesen. Dies ist kein erfundener Anwendungsfall. Es ist eine echte veröffentlichte Forschung. So wenden die Menschen die statistischen Methoden in der Wirtschaftsforschung tatsächlich an.

Wie ich schrieb, ist das Buch mit Anwendungsfällen wie diesen über die Verwendung fortgeschrittener statistischer Methoden belastet.


0

Haben Sie sich einige der Kurse / Bücher zur Analyse von Finanzzeitreihen angesehen, die Ruey Tsay (UChicago) schreibt?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Die Kurse von Ruey Tsays und das Lehrbuch bieten zahlreiche Beispiele aus der Praxis für die Finanzierung komplexer Regressionen, die für den Einsatz an Finanzmärkten erstellt wurden. Kapitel 1 beginnt mit Multifaktor-Regressionsmodellen und wird um Kapitel 5 oder 6 zu saisonalen autoregressiven Zeitreihenmodellen erweitert.


2
Ja, ich habe es getan und mag es überhaupt nicht. Es ist sehr breit gefächert (von Volatilitätsmodellen über Hochfrequenzmodelle bis hin zu ARIMA ...), berührt jedes Thema leicht (wie konnte es bei so vielen Themen nicht sein) und die R-Studien und Herausforderungen sind auf ein Minimum reduziert. Es ist eine Wiederholung von wissenschaftlichen Arbeiten und bereits erwähnten Theorien / Modellen, die Sie woanders finden können. Genau das meine ich mit Schulfällen, die sich nie mit der Komplexität multipler Herausforderungen in einem realen, fortgeschrittenen Problem befassen.
Robert Kubrick
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.