Die grundlegende OLS-Regression ist eine sehr gute Technik zum Anpassen einer Funktion an einen Datensatz. Eine einfache Regression passt jedoch nur auf eine gerade Linie, die für den gesamten möglichen Bereich von konstant ist . Dies ist für eine bestimmte Situation möglicherweise nicht angemessen. Beispielsweise weisen Daten manchmal eine krummlinige Beziehung auf. Dies kann durch Regression von auf eine Transformation von , . Verschiedene Transformationen sind möglich. In Situationen , in denen die Beziehung zwischen und ist monoton , sondern verjüngt sich kontinuierlich aus, ein TransformationsprotokollXYXf(X)XYkann verwendet werden. Eine andere beliebte Wahl ist die Verwendung eines Polynoms, bei dem neue Terme durch Erhöhen von auf eine Reihe von Potenzen (z. B. , usw.) gebildet werden. Diese Strategie ist einfach zu implementieren, und Sie können die Anpassung so interpretieren, dass sie angibt, wie viele Biegungen in Ihren Daten vorhanden sind (wobei die Anzahl der Biegungen der höchsten benötigten Leistung minus 1 entspricht). XX2X3
Regressionen, die auf dem Logarithmus oder einem Exponenten der Kovariate basieren, passen jedoch nur dann optimal, wenn dies die genaue Natur der wahren Beziehung ist. Man kann sich durchaus vorstellen, dass es eine krummlinige Beziehung zwischen und , die sich von den Möglichkeiten unterscheidet, die diese Transformationen bieten. Damit kommen wir zu zwei weiteren Strategien. Der erste Ansatz ist Löss , eine Reihe gewichteter linearer Regressionen, die über ein sich bewegendes Fenster berechnet werden. Dieser Ansatz ist älter und besser für die explorative Datenanalyse geeignet . XY
Der andere Ansatz ist die Verwendung von Splines. Im einfachsten Fall ist ein Spline ein neuer Begriff, der nur für einen Teil des Bereichs von . Beispielsweise kann Bereich von 0 bis 1 liegen, und der Spline-Term kann nur im Bereich von 0,7 bis 1 liegen. In diesem Fall ist 0,7 der Knoten . Ein einfacher linearer Spline-Term würde folgendermaßen berechnet:
und werden Sie Ihrem Modell zusätzlich zum ursprünglichen hinzufügenXX
Xspline={0X−.7if X≤.7if X>.7
XBegriff. Das angepasste Modell zeigt einen scharfen Bruch bei 0,7 mit einer geraden Linie von 0 bis 0,7, und die Linie setzt sich mit einer anderen Neigung von 0,7 bis 1 fort. Ein Spline-Term muss jedoch nicht linear sein. Insbesondere wurde festgestellt, dass kubische Splines besonders nützlich sind (dh ). Die scharfe Pause muss auch nicht da sein. Es wurden Algorithmen entwickelt, die die angepassten Parameter so einschränken, dass die erste und die zweite Ableitung an den Knoten übereinstimmen, was es unmöglich macht, die Knoten in der Ausgabe zu erkennen. Das Endergebnis all dessen ist, dass mit nur wenigen Knoten (normalerweise 3-5) an ausgewählten Stellen (welche Software für Sie bestimmen kann) so ziemlich
jede reproduzierbar ist
X3splineKurve. Darüber hinaus werden die Freiheitsgrade korrekt berechnet, sodass Sie den Ergebnissen vertrauen können. Dies ist jedoch nicht der Fall, wenn Sie sich zuerst Ihre Daten ansehen und sich dann für einen quadratischen Ausdruck entscheiden, weil Sie eine Biegung gesehen haben. Darüber hinaus ist dies alles nur eine weitere (wenn auch kompliziertere) Version des linearen Grundmodells. Alles, was wir mit linearen Modellen erhalten, ist damit verbunden (z. B. Vorhersagen, Residuen, Konfidenzbänder, Tests usw.). Dies sind
wesentliche Vorteile.
Die einfachste Einführung in diese Themen, die ich kenne, ist: