Wie kann man objektiv ("algorithmisch" gelesen) ein geeignetes Modell für eine einfache lineare Regression der kleinsten Quadrate mit zwei Variablen auswählen?
Angenommen, die Daten scheinen einen quadratischen Trend zu zeigen, und es wird eine Parabel generiert, die recht gut zu den Daten passt. Wie rechtfertigen wir es, dies zur Regression zu machen? Oder wie beseitigen wir die Möglichkeit, dass es ein besseres Modell gibt?
Was mich wirklich beunruhigt, ist Folgendes: Wir könnten einfach so lange Polynomterme hinzufügen, bis wir eine perfekte Anpassung für den Datensatz (eine Interpolation der Punkte) ohne jeglichen Fehler hatten. Dies wäre jedoch für die Vorhersage oder Extrapolation nutzlos , da es keinen Grund zu der Annahme gibt, dass das "Modell" tatsächlich angemessen ist. Wie bringt man die Bedürfnisse nach Genauigkeit und intuitiver Attraktivität in Einklang?
(Bitte benachrichtigen Sie mich auch, wenn dies zuvor gefragt wurde. Ich nahm an, dass dies der Fall war, fand aber nichts.)