So fügen Sie eine visuelle Erklärung hinzu: Betrachten wir einige Punkte, die Sie modellieren möchten.
Sie sehen so aus, als könnten sie mit einer geraden Linie gut beschrieben werden, sodass Sie eine lineare Regression an sie anpassen:
Mit dieser Regressionslinie können Sie sowohl interpolieren (erwartete Werte zwischen Ihren Datenpunkten generieren) als auch extrapolieren (erwartete Werte außerhalb des Bereichs Ihrer Datenpunkte generieren). Ich habe die Extrapolation in Rot und den größten Interpolationsbereich in Blau hervorgehoben. Klar, auch die winzigen Bereiche zwischen den Punkten werden interpoliert, aber ich hebe hier nur den großen hervor.
Warum ist Extrapolation im Allgemeinen ein größeres Problem? Weil Sie sich in der Regel über die Form der Beziehung außerhalb des Bereichs Ihrer Daten weniger sicher sind. Überlegen Sie, was passieren kann, wenn Sie weitere Datenpunkte (hohle Kreise) erfassen:
Es stellt sich heraus, dass die Beziehung mit Ihrer hypothetischen Beziehung doch nicht gut aufgenommen wurde. Die Vorhersagen in der extrapolierten Region sind weit entfernt. Selbst wenn Sie die genaue Funktion, die diese nichtlineare Beziehung beschreibt, richtig erraten haben, reichten Ihre Daten nicht aus, um die Nichtlinearität gut zu erfassen, sodass Sie möglicherweise noch ziemlich weit weg waren. Beachten Sie, dass dies nicht nur ein Problem für die lineare Regression ist, sondern für jede Beziehung - daher wird die Extrapolation als gefährlich angesehen.
Vorhersagen im interpolierten Bereich sind auch aufgrund der fehlenden Nichtlinearität der Anpassung falsch, ihr Vorhersagefehler ist jedoch viel geringer. Es gibt keine Garantie, dass Sie keine unerwartete Beziehung zwischen Ihren Punkten (dh dem Interpolationsbereich) haben, aber es ist im Allgemeinen weniger wahrscheinlich.
Ich werde hinzufügen, dass Extrapolation nicht immer eine schreckliche Idee ist - wenn Sie ein kleines Stück außerhalb des Bereichs Ihrer Daten extrapolieren, werden Sie wahrscheinlich nicht sehr falsch liegen (obwohl es möglich ist!). Ältere Menschen, die kein gutes wissenschaftliches Modell der Welt hatten, hätten nicht viel falsch gelegen, wenn sie vorausgesagt hätten, dass die Sonne am nächsten Tag und am nächsten Tag wieder aufgehen würde (auch wenn dies einen Tag in der Zukunft scheitern wird).
Und manchmal kann eine Extrapolation sogar informativ sein - zum Beispiel waren einfache kurzfristige Extrapolationen des exponentiellen Anstiegs des atmosphärischen in den letzten Jahrzehnten ziemlich genau. Wenn Sie ein Student wären, der nicht über wissenschaftliches Fachwissen verfügt, aber eine grobe, kurzfristige Prognose wünscht, hätte dies zu ziemlich vernünftigen Ergebnissen geführt. Aber je weiter Sie von Ihren Daten entfernt sind, desto wahrscheinlicher ist es, dass Ihre Vorhersage fehlschlägt und katastrophal ausfällt, wie in diesem großartigen Thread beschrieben: Was ist falsch an der Extrapolation? (Danke an @JMisnotastatistician, der mich daran erinnert hat).2
Bearbeitung basierend auf Kommentaren: Ob interpolierend oder extrapolierend, es ist immer am besten, eine Theorie zu haben, um die Erwartungen zu begründen. Wenn eine theoretische Modellierung durchgeführt werden muss, ist das Risiko durch Interpolation in der Regel geringer als das durch Extrapolation. Mit zunehmender Größe der Lücke zwischen den Datenpunkten wird jedoch auch die Interpolation immer risikobehafteter.