Der Grund, warum Diagramme allgemein verwendet werden, um eine einfache Regression einzuführen - eine Antwort, die von einem einzelnen Prädiktor vorhergesagt wird - ist, dass sie das Verständnis unterstützen.
Ich glaube jedoch, dass ich etwas von dem Geschmack geben kann, das zum Verständnis der Vorgänge beitragen könnte. In diesem Artikel werde ich mich hauptsächlich darauf konzentrieren, einen Teil des Verständnisses zu vermitteln, das sie vermitteln. Dies kann bei einigen anderen Aspekten hilfreich sein, auf die Sie normalerweise beim Lesen über Regression stoßen. Diese Antwort wird sich also hauptsächlich mit einem bestimmten Aspekt Ihres Beitrags befassen.
Stellen Sie sich vor, Sie sitzen vor einem großen rechteckigen Tisch wie einem schlichten Schreibtisch, von dem einer eine volle Armspanne (vielleicht 1,8 Meter) hat und vielleicht halb so breit ist.
Sie sitzen in der gewohnten Position in der Mitte einer langen Seite vor dem Tisch. Auf diesem Tisch wurde eine große Anzahl von Nägeln (mit ziemlich glatten Köpfen) in die Oberfläche gehämmert, so dass jeder ein Stück nach oben ragt (genug, um zu fühlen, wo sie sind, und genug, um eine Schnur daran zu binden oder ein Gummiband anzubringen ).
Diese Nägel befinden sich in unterschiedlichem Abstand von Ihrer Schreibtischkante, so dass sie sich in der Regel an einem Ende (sagen wir am linken Ende) näher an Ihrer Schreibtischkante befinden und wenn Sie sich zum anderen Ende bewegen, die Nagelköpfe neigen dazu, weiter von Ihrem Rand entfernt zu sein.
Stellen Sie sich außerdem vor, dass es nützlich wäre, zu wissen, wie weit die Nägel im Durchschnitt von Ihrer Kante entfernt sind, und zwar an jeder beliebigen Position entlang Ihrer Kante.
Wählen Sie eine Stelle entlang Ihrer Schreibtischkante und legen Sie Ihre Hand dort ab. Greifen Sie dann direkt über den Tisch und ziehen Sie Ihre Hand sanft zurück zu sich, dann wieder weg und bewegen Sie Ihre Hand hin und her über die Nagelköpfe. Bei diesen Nägeln treten mehrere Dutzend Unebenheiten auf - diejenigen in der schmalen Breite Ihrer Hand (wenn sie sich direkt von Ihrer Kante wegbewegen, in konstantem Abstand vom linken Ende des Schreibtisches), ein etwa zehn Zentimeter breiter Abschnitt oder Streifen .
Die Idee ist, einen durchschnittlichen Abstand zu einem Nagel von Ihrer Schreibtischkante in diesem kleinen Bereich herauszufinden. Intuitiv ist es nur die Mitte der Unebenheiten, die wir treffen, aber wenn wir jeden Nagelabstand in diesem handbreiten Abschnitt des Schreibtisches messen, können wir diese Durchschnittswerte leicht berechnen.
Zum Beispiel könnten wir ein T-Quadrat verwenden, dessen Kopf entlang der Kante des Schreibtisches gleitet und dessen Schaft zur anderen Seite des Schreibtisches verläuft, aber direkt über dem Schreibtisch, damit wir die Nägel nicht berühren, wenn sie nach links gleiten oder rechts - wenn wir einen bestimmten Nagel passieren, können wir seinen Abstand entlang des Schafts des T-Quadrats ermitteln.
Bei einer Reihe von Stellen entlang unserer Kante wiederholen wir diese Übung, indem wir alle Nägel in einem handbreiten Streifen finden, der auf uns zu- und von uns wegläuft, und ihre durchschnittliche Entfernung ermitteln. Vielleicht teilen wir den Schreibtisch entlang unserer Kante in handbreite Streifen auf (damit jeder Nagel in genau einem Streifen angetroffen wird).
Stellen Sie sich vor, es gäbe 21 solcher Streifen, der erste am linken Rand und der letzte am rechten Rand. Die Mittel entfernen sich weiter von unserer Schreibtischkante, wenn wir über die Streifen fahren.
Diese Mittel bilden einen einfachen nichtparametrischen Regressionsschätzer für die Erwartung von y (unser Abstand) bei gegebenem x (Abstand entlang unserer Kante vom linken Ende), dh E (y | x). Insbesondere handelt es sich hierbei um einen nichtparametrischen Regressionsschätzer, der auch als Regressionsprogramm bezeichnet wird
Wenn sich diese Streifenmittelwerte regelmäßig erhöhen - das heißt, der Mittelwert stieg normalerweise um ungefähr den gleichen Betrag pro Streifen, wie wir uns über die Streifen bewegt haben -, können wir unsere Regressionsfunktion besser abschätzen, indem wir annehmen, dass der erwartete Wert von y linear ist Funktion von x - dh dass der erwartete Wert von y bei x eine Konstante plus ein Vielfaches von x war. Hier stellt die Konstante dar, wo sich die Nägel tendenziell befinden, wenn wir bei x Null sind (oft können wir dies am äußersten linken Rand platzieren, müssen es aber nicht), und das besondere Vielfache von x gibt an, wie schnell im Durchschnitt der Mittelwert ist ändert sich, wenn wir uns um einen Zentimeter nach rechts bewegen.
Aber wie findet man eine solche lineare Funktion?
Stellen Sie sich vor, wir wickeln ein Gummiband über jeden Nagelkopf und befestigen jedes an einem langen, dünnen Stab, der direkt über dem Schreibtisch auf den Nägeln liegt, so dass er ungefähr in der Mitte jedes Streifens liegt, den wir hatten zum.
Wir befestigen die Bänder so, dass sie sich nur in die Richtung zu uns hin und von uns weg erstrecken (nicht nach links oder rechts) - nach links ziehen sie, um ihre Dehnungsrichtung mit dem Stock im rechten Winkel zu machen. aber hier verhindern wir das, so dass ihre Dehnungsrichtung nur in der Richtung zu oder von unserer Schreibtischkante weg bleibt. Jetzt lassen wir den Stab sich beruhigen, während die Bänder ihn zu jedem Nagel ziehen, wobei entferntere Nägel (mit mehr gedehnten Gummibändern) entsprechend stärker ziehen als Nägel in der Nähe des Stabes.
Dann würde das kombinierte Ergebnis aller Bänder, die am Stock ziehen, (idealerweise zumindest) darin bestehen, den Stock zu ziehen, um die Summe der quadratischen Längen der gedehnten Gummibänder zu minimieren; in dieser Richtung direkt über dem Tisch wäre der Abstand von unserer Tischkante zum Stab an einer gegebenen x-Position unsere Schätzung des erwarteten Wertes von y bei gegebenem x.
Dies ist im Wesentlichen eine lineare Regressionsschätzung.
Stellen Sie sich nun vor, dass anstelle von Nägeln viele Früchte (wie z. B. kleine Äpfel) an einem großen Baum hängen und wir den durchschnittlichen Abstand der Früchte über dem Boden ermitteln möchten, da er mit der Position auf dem Boden variiert. Stellen Sie sich vor, dass in diesem Fall die Höhen über dem Boden größer werden, wenn wir vorwärts gehen, und etwas größer werden, wenn wir uns nach rechts bewegen, und zwar wieder in regelmäßiger Weise Rechts ändert auch den Mittelwert um einen ungefähr konstanten Betrag (dieser Änderungsbetrag nach rechts unterscheidet sich jedoch vom Änderungsbetrag nach vorne).
Wenn wir die Summe der quadratischen vertikalen Abstände von den Früchten zu einem dünnen, flachen Blatt (möglicherweise einem dünnen Blatt aus sehr steifem Kunststoff) minimieren, um herauszufinden, wie sich die mittlere Höhe ändert, wenn wir uns vorwärts bewegen oder nach rechts gehen, wäre das eine lineare Regression mit zwei Prädiktoren - eine multiple Regression.
Dies sind die einzigen beiden Fälle, die zum Verständnis von Plots beitragen können (sie können schnell zeigen, was ich gerade ausführlich beschrieben habe, aber Sie wissen hoffentlich, auf welcher Grundlage Sie dieselben Ideen konzipieren können). Abgesehen von diesen beiden einfachsten Fällen bleibt uns nur die Mathematik.
Nehmen Sie nun Ihr Hauspreisbeispiel. Sie können die Fläche jedes Hauses durch einen Abstand entlang Ihrer Schreibtischkante darstellen - stellen Sie die größte Hausgröße als Position in der Nähe der rechten Kante dar, jede andere Hausgröße ist eine Position weiter links, wobei eine bestimmte Anzahl von Zentimetern für eine bestimmte Position steht Anzahl der Quadratmeter. Jetzt entspricht die Entfernung dem Verkaufspreis. Stellen Sie das teuerste Haus dar, da eine bestimmte Entfernung in der Nähe der äußersten Kante des Schreibtisches (wie immer die Kante, die am weitesten von Ihrem Stuhl entfernt ist) und jeder Zentimeter, der von diesem entfernt ist, eine bestimmte Anzahl von Rials darstellt.
Stellen Sie sich vorerst vor, dass wir die Darstellung so gewählt haben, dass die linke Kante des Schreibtisches einer Hausfläche von Null und die nahe Kante einem Hauspreis von 0 entspricht. Dann setzen wir für jedes Haus einen Nagel ein.
Wir werden wahrscheinlich keine Nägel in der Nähe des linken Endes unserer Kante haben (sie könnten meistens nach rechts und von uns entfernt sein), weil dies nicht unbedingt eine gute Wahl des Maßstabs ist, aber Ihre Wahl eines No-Intercept-Modells macht dies ein besserer Weg, um es zu diskutieren.
Jetzt zwingen Sie in Ihrem Modell den Stock, durch eine Schnurschleife an der linken Ecke der nahen Kante des Schreibtisches zu laufen, wodurch das angepasste Modell gezwungen wird, für den Bereich Null den Preis Null zu haben, was natürlich erscheinen mag - stellen Sie sich jedoch vor, ob dies der Fall ist einige ziemlich konstante Preisbestandteile, die jeden Verkauf betrafen. Dann wäre es sinnvoll, wenn sich der Achsenabschnitt von Null unterscheidet.
In jedem Fall wird mit der Hinzufügung dieser Schleife die gleiche Gummibandübung wie zuvor unsere Schätzung der kleinsten Quadrate der Linie finden.