Regression zum Beispiel an Wochentagen


11

Ich brauche ein bisschen Hilfe, um mich in die richtige Richtung zu bewegen. Es ist lange her, dass ich Statistiken studiert habe und der Jargon scheint sich geändert zu haben.

Stellen Sie sich vor, ich habe eine Reihe von autobezogenen Daten wie z

  • Reisezeit von Stadt A nach Stadt B.
  • Entfernung von Stadt A zu Stadt B.
  • Motor Größe
  • Schuhgröße des Fahrers
  • Marke und Modell des Autos
  • Wochentag

Ich möchte die Reisezeit vorhersagen.

Ich stelle mir vor, dass es eine starke Korrelation zwischen Zeit und Entfernung gibt und wahrscheinlich eine schwächere zur Motorgröße (und keine zur Schuhgröße). Vermutlich ist die multiple Regressionsanalyse / ANOVA das zu verwendende Werkzeug. Aber wie schließe ich den Wochentag ein, da es sich sehr falsch anfühlt, ihn nur als Sonntag = 1, Montag = 2 usw. zu codieren?

Wie interpretiere ich die Ergebnisse, nachdem ich beispielsweise das Regressionstool von Excel verwendet habe? Vermutlich ist dies gut, wenn R nahe bei 1 liegt (obwohl es bei vielen Datenelementen so aussieht, als ob es klein und dennoch signifikant sein kann). Einige Quellen beziehen sich jedoch auf das R-Quadrat, das die SD zu sein scheint, sodass ein Wert nahe Null gut ist. Es zeigt auch den t Stat, den P-Wert, F und die Signifikanz F, was auch immer sie sein mögen. Kann jemand eine gute Referenzquelle empfehlen?


2
Diese Fragen (zur Interpretation der Regressionsausgabe) wurden hier in einem anderen Thread gestellt , aber die Frage war so schlecht formuliert, dass keine guten Antworten gefunden wurden. Dies ist eine grundlegende Frage, die eine "kanonische" Antwort verdient, die elementar, aber gründlich, klar und gut erklärt ist.
whuber

Antworten:


26

Was Sie brauchen, ist eine solide Überprüfung der Regressionsmethode. Diese Fragen sind jedoch so grundlegend (verstehen Sie das nicht falsch), dass Ihnen wahrscheinlich sogar ein guter Überblick über grundlegende Statistiken zugute kommen würde. Howell hat ein sehr beliebtes Lehrbuch geschrieben , das eine breite konzeptionelle Grundlage bietet, ohne dass eine dichte Mathematik erforderlich ist. Es kann sich durchaus lohnen, es zu lesen. Es ist nicht möglich, das gesamte Material hier abzudecken. Ich kann jedoch versuchen, Sie mit einigen Ihrer spezifischen Fragen vertraut zu machen.

Erstens werden Wochentage über ein Codierungsschema eingeschlossen. Am beliebtesten ist die Codierung der Referenzkategorie (normalerweise als Dummy-Codierung bezeichnet). Stellen wir uns vor, Ihre Daten werden in einer Matrix dargestellt, mit Ihren Fällen in Zeilen und Ihren Variablen in Spalten. Wenn Sie in diesem Schema 7 kategoriale Variablen hätten (z. B. für Wochentage), würden Sie 6 neue Spalten hinzufügen. Sie würden einen Tag als Referenzkategorie auswählen, im Allgemeinen diejenige, die als Standardkategorie angesehen wird. Oft wird dies durch Theorie, Kontext oder die Forschungsfrage bestimmt. Ich habe keine Ahnung, welches für Wochentage am besten wäre, aber es ist auch nicht wirklich wichtig, man könnte einfach jedes alte auswählen. Sobald Sie die Referenzkategorie haben, können Sie die anderen Ihren neuen 6 Variablen zuweisen und dann einfach angeben, ob diese Variable für jeden Fall erhalten wird. Angenommen, Sie wählen Sonntag als Referenzkategorie aus. Ihre neuen Spalten / Variablen wären Montag bis Samstag. Jede Beobachtung, die an einem Montag stattfand, würde mit einem gekennzeichnet1010

Es ist lange her, dass ich mir angesehen habe, wie Excel Statistiken erstellt, und ich erinnere mich nicht genau daran, sodass Ihnen möglicherweise jemand anderes dort weiterhelfen kann. Diese Seite scheint einige Informationen zu den Besonderheiten der Regression in Excel zu enthalten. Ich kann Ihnen etwas mehr über die Statistiken erzählen, die normalerweise in der Regressionsausgabe gemeldet werden:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) ist stark voreingenommen in multiple Regression. Das heißt, je mehr Prädiktoren Sie Ihrem Modell hinzufügen, desto höher sind diese Statistiken, unabhängig davon, ob eine Beziehung besteht oder nicht. Daher sollten Sie bei der Interpretation vorsichtig sein.
  • tF
  • p
  • tFpF1F
  • FF

Ein letzter hervorzuhebender Punkt ist, dass dieser Prozess nicht von seinem Kontext getrennt werden kann. Um Daten gut analysieren zu können, müssen Sie Ihr Hintergrundwissen und die Forschungsfrage berücksichtigen. Ich habe oben in Bezug auf die Wahl der Referenzkategorie darauf hingewiesen. Zum Beispiel stellen Sie fest, dass die Schuhgröße nicht relevant sein sollte, aber für die Flintstones war es wahrscheinlich! Ich möchte diese Tatsache nur einbeziehen, weil sie oft vergessen zu sein scheint.


5
(+1) Excel kann tatsächlich mehrere Regressionen durchführen und verfügt über einen Befehl, mit dem eine Standardzusammenfassungstabelle erstellt werden kann. Angesichts seiner historischen Tendenz, bei der Berechnung von Verteilungswerten (sehr) schlampig zu sein, muss die Fähigkeit wie Samuel Johnsons Hund angesehen werden : "... ein Hund läuft auf seinen Hinterbeinen. Es ist nicht gut gemacht; aber Sie sind überrascht zu finden es hat überhaupt getan. "
whuber

3

Sie enden mit vielen Fragen, die eine "Lehrregression" erfordern. Lassen Sie mich sagen, dass höheres R ^ 2 besser ist, aber es gibt Vorbehalte. R ^ 2 steigt immer an, wenn Sie Variablen hinzufügen, damit Sie sie künstlich aufblasen können. Schauen Sie sich Signifikanztests an, schauen Sie sich die Restdiagnose an usw. In Bezug auf den Wochentag wäre Montag = 1, Dienstag = 2 usw. nicht der richtige Weg. Was Sie wollen, sind saisonale Indikatorvariablen: 0/1 wenn Montag, 0/1 wenn Dienstag usw.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.