Ich habe den naiven Gedanken, dass eine lineare Regression nur dann geeignet ist, wenn man vermutet, dass es lineare funktionale Beziehungen zwischen erklärenden Variablen und der Antwortvariablen gibt. Aber nicht viele reale Anwendungen scheinen dieses Kriterium zu erfüllen.
Dies ist kein korrektes Verständnis dessen, was "linear" in "linearer Regression" ist.
Es wird nicht angenommen, dass die Beziehung zwischen und x linear ist (obwohl alle elementaren Beispiele Sie wahrscheinlich irreführen werden).yx
Der Begriff "linear" bezieht sich darauf, dass das Modell in den Parametern linear ist, und nichtlineare Beziehungen zwischen und einigen x können auf diese Weise sicherlich modelliert werden.yx
Es ist ein Beispiel mit einem einzigen Prädiktor hier , aber gekrümmten Modelle sind häufiger als multiple Regression eingebaut, wo mehrere Funktionen eines Prädiktor (x Variable, unabhängige Variable) in der Regression auftreten können, und dies ermöglicht eine große Flexibilität. Dazu gehört beispielsweise die polynomiale Regression. Siehe einige Diskussionen und Beispiele hier .
Wenn wir jedoch die Tatsache berücksichtigen, dass Prädiktoren transformiert werden können, um sie an gekrümmte Beziehungen anzupassen, entspricht die Linearität der Parameter auch der Linearität dieser transformierten Prädiktoren.
Darüber hinaus sind viele Probleme nahezu linear (zumindest über den betrachteten Wertebereich) oder so verrauscht, dass keine leichte Krümmung erkennbar ist, und eine Vielzahl einfacher Modelle für eine zunehmende oder abnehmende Beziehung könnte dies tun. und in diesem Fall kann eine lineare Wahl sowohl angemessen als auch am einfachsten anzupassen und zu verstehen sein.
Über welche Facetten eines Projekts würde sich ein erfahrener Statistiker Gedanken machen, wenn er in meinen Schuhen steckt und nach einer Frage + Daten sucht, die sich gut für eine lineare Regression eignen.
Das einzige Mal, wenn ich nach einem Problem suche, auf das ich die Regression anwenden kann, ist der Versuch, ein gutes Beispiel für das Unterrichten zu finden. Wenn ich tatsächlich in der Lage bin, statistische Arbeit zu leisten (anstatt sie zu erklären oder zu lehren), wähle ich die Methodik, die der Frage von Interesse (und den Merkmalen der Daten) entspricht, und nicht die Daten, die der Methode entsprechen.
Stellen Sie sich zum Beispiel einen Tischler vor. Der Zimmermann nicht abholen eine Hobel und sagt : „Was kann ich dies auf?“. Vielmehr hat der Schreiner ein Problem zu lösen, und bei der Betrachtung der Merkmale des Problems ("Was versuche ich zu machen?" Und "Welche Art von Holz verwende ich?" Und so weiter ...) kann es sich um bestimmte Werkzeuge handeln relevanter als andere. Manchmal ist die Werkzeuge , die verfügbar sind , kann die Entscheidungen beschränken oder führen (wenn Sie nicht haben einen Hobel, können Sie mit etwas machen zu tun haben , sonst ... oder Sie können nur eine Hobel kaufen gehen müssen).
Aber nehmen wir an , dass Sie eine Tasche Statistiker haben helfen Ihnen und Sie versuchen , ein Problem zu linearen Regression geeignet zu finden. Dann könnten sie vorschlagen, dass Sie verschiedene Regressionsannahmen berücksichtigen und wann sie wichtig sind. Ich werde ein paar Dinge erwähnen.
E(y|g( x ) )G( x )Gx∗= xE( y| x∗) = a + b x ∗
Wenn Sie in der Lage sind, mehrere Regressionen zu verwenden, ist dies auch kein besonderes Problem, da Sie beispielsweise kubische Regressionssplines verwenden können, um relativ allgemeine Beziehungen anzupassen.
Ich würde vorschlagen, dass Sie sich im Laufe der Zeit von Daten fernhalten, es sei denn, Sie verstehen die Probleme mit der falschen Regression. bei Querschnittsproblemen bleiben.
xx
x
Wenn Sie an Hypothesentests, Konfidenzintervallen oder Vorhersageintervallen interessiert sind, sind möglicherweise mehr der üblichen Regressionsannahmen von Bedeutung (aber es gibt Alternativen, die diese Annahmen nicht treffen, und in einigen Fällen können zumindest einige der Annahmen dies nicht tun besonders wichtig sein).
Zumindest sollte man sich bewusst machen, welche Annahmen getroffen werden, um die von Ihnen verwendeten Inferenzverfahren abzuleiten, und wie wichtig sie für Ihr spezielles Problem sein können (beispielsweise bei der Durchführung der üblichen Hypothesentests). Normalität ist eine Annahme, aber in großen Stichproben ist diese Annahme möglicherweise nicht wichtig. Andererseits ist die Annahme einer konstanten Varianz möglicherweise ein größeres Problem.
Es gibt eine Reihe von Beiträgen, in denen Annahmen zur Regression erörtert werden, und einige Beiträge, in denen erörtert wird, wann sie überhaupt erstellt werden müssen, wie wichtig sie sind und in welcher Reihenfolge sie berücksichtigt werden müssen.