Ist die multiple lineare Regression in drei Dimensionen eine Ebene mit der besten Anpassung oder eine Linie mit der besten Anpassung?


11

Unser Professor befasst sich nicht mit der Mathematik oder sogar der geometrischen Darstellung multipler linearer Regression, und das hat mich etwas verwirrt.

Einerseits wird es auch in höheren Dimensionen immer noch als multiple lineare Regression bezeichnet. Auf der anderen Seite, wenn wir zum Beispiel haben Y = b 0 + b 1 X 1 + b 2 X 2 und wir können Stecker in beliebigen Werten würden wir für wie X 1 und X 2 , würde das nicht gibt uns ein Ebene möglicher Lösungen und keine Linie?Y^=b0+b1X1+b2X2X1X2

Wird unsere Vorhersageoberfläche nicht im Allgemeinen eine dimensionale Hyperebene für k unabhängige Variablen sein?kk

Antworten:


12

Sie haben Recht, die Lösungsoberfläche wird im Allgemeinen eine Hyperebene sein. Es ist nur so, dass das Wort Hyperebene ein Schluck ist, die Ebene kürzer ist und die Linie noch kürzer ist. Während Sie in der Mathematik fortfahren, wird der eindimensionale Fall immer seltener diskutiert, so der Kompromiss

Big words for high dimensional, Small words for small dimensional

fängt an, rückwärts zu schauen.

Wenn ich zum Beispiel eine Gleichung wie sehe , wobei A eine Matrix und x , b Vektoren sind, nenne ich dies eine lineare Gleichung . In einem früheren Teil meines Lebens würde ich dies ein System linearer Gleichungen nennen , das lineare Gleichungen für den eindimensionalen Fall reserviert . Aber dann kam ich zu einem Punkt, an dem der eindimensionale Fall nicht sehr oft auftauchte, während der mehrdimensionale Fall überall war.Ax=bAx,b

Dies geschieht auch mit Notation. Schon mal jemanden schreiben gesehen

fx=2x

Dieses Symbol auf der linken Seite ist ein Name einer Funktion. Um formal und pedantisch zu sein, sollten Sie schreiben

fx(x)=2x

Bei Mehrfachdimensionen wird es schlimmer, wenn die Ableitung zwei Argumente verwendet, eines ist, wo Sie die Ableitung nehmen, und das andere, in welche Richtung Sie die Ableitung bewerten, wie es aussieht

xf(v)

Aber die Leute werden sehr schnell faul und beginnen, das eine oder andere Argument fallen zu lassen, so dass sie im Kontext verstanden werden.

Professionelle Mathematiker, Zungen fest in der Wange, nennen diesen Missbrauch der Notation . Es gibt Themen, bei denen es im Wesentlichen unmöglich wäre, sich auszudrücken, ohne die Notation zu missbrauchen, wobei meine geliebte Differentialgeometrie ein typisches Beispiel ist. Der große Nicolas Bourbaki drückte den Punkt sehr eloquent aus

Soweit möglich haben wir im Text auf Sprachmissbrauch hingewiesen, ohne den jeder mathematische Text das Risiko einer Pedanterie eingeht, ganz zu schweigen von der Unlesbarkeit.

- Bourbaki (1988)

Sie kommentieren sogar einen Missbrauch der Notation, in den ich oben geraten bin, ohne es selbst zu bemerken!

Technisch gesehen, da Sie df / dx als partielle Ableitung geschrieben haben, obwohl die anderen implizierten Variablen als konstant gehalten würden, wäre die partielle Ableitung technisch immer noch keine Funktion aller Variablen der ursprünglichen Funktion, wie in df / dx ( x, y, ...)?

Sie haben vollkommen recht, und dies gibt eine gute (unbeabsichtigte) Illustration dessen, was ich hier vorhabe.

dfdx

Ich denke, ich denke, wenn wir "unendliche Summe" sagen, anstatt "die Grenze einer Summe, wenn sich die Anzahl der Begriffe der Unendlichkeit nähert". Ich denke darüber nach, dass es in Ordnung ist, solange der konzeptionelle Unterschied klar ist. In diesem Fall (multiple Regression) war ich mir nicht sicher, worüber wir überhaupt sprachen.

Yah, das ist eine konsequente Art, darüber nachzudenken. Der einzige wirkliche Unterschied ist, dass wir dort eine so gemeinsame Situation haben, dass wirΣ

Als faule Leute wollen wir in den üblichen Fällen Wörter sparen.

(*) Historisch gesehen haben sich so nicht unendlich viele Summen entwickelt. Die Grenze der Teilsummendefinition wurde a posteriori entwickelt, als Mathematiker auf Situationen stießen, in denen es notwendig war, sehr genau zu argumentieren.


Es ist lustig, dass Sie das Beispiel partieller Ableitungen nennen, weil ich mich immer darüber gewundert habe (die Freuden des Selbststudiums ...). Übrigens (unabhängig davon, dass ich nicht pedantisch bin, aber nur sicherstellen möchte, dass ich so viel wie möglich verstehe) technisch gesehen, da Sie df / dx als partielle Ableitung geschrieben haben, obwohl die anderen implizierten Variablen als konstant gehalten würden, würde dies nicht der Fall sein Die partielle Ableitung ist technisch immer noch eine Funktion aller Variablen der ursprünglichen Funktion, wie in df / dx (x, y, ...)? Ich denke, meine Frage ist, ob die partielle Ableitung nicht immer noch eine Funktion aller Variablen ist.
Jeremy Radcliff

Vielen Dank auch für die Erklärung. Ich denke, ich denke, wenn wir "unendliche Summe" sagen, anstatt "die Grenze einer Summe, wenn sich die Anzahl der Begriffe der Unendlichkeit nähert". Ich denke darüber nach, dass es in Ordnung ist, solange der konzeptionelle Unterschied klar ist. In diesem Fall (multiple Regression) war ich mir nicht sicher, worüber wir überhaupt sprachen. Ich habe versucht, mir eine Linie in 3D vorzustellen, und dann festgestellt, dass es keinen Sinn macht, wenn mehrere unabhängige Variablen frei variieren, also wollte ich nur sichergehen.
Jeremy Radcliff

+1 tolle Antwort. Manchmal sind die Leute faul und verursachen viele Verwirrungen. Deshalb habe ich versucht, in diesem Beitrag nach Notizen zu fragen. stats.stackexchange.com/questions/216286/…
Haitao Du

@jeremyradcliff Ich habe in einigen Kommentaren bearbeitet.
Matthew Drury

@MatthewDrury, vielen Dank, dass Sie sich die Zeit genommen haben, meine Kommentare anzusprechen. Es ist sehr hilfreich für mich, weil ich den größten Teil der Mathematik, die ich kenne, selbst lerne und der Mangel an umgebender Kultur und der Zugang zu Mathematikern Orte wie Stapelaustausch und Antworten wie Ihre für mich von unschätzbarem Wert machen.
Jeremy Radcliff

5

"Linear" bedeutet nicht ganz, was Sie in diesem Zusammenhang denken - es ist etwas allgemeiner

Erstens bezieht es sich nicht wirklich auf die Linearität in den x, sondern auf die Parameter * ("linear in den Parametern").

E.(Y.|X.)=X.β ist eine lineare Funktion in β-Raum.

Eine Ebene (oder allgemeiner eine Hyperebene) mit der besten Anpassung ist also immer noch "lineare Regression".

* obwohl es in den angegebenen x linear ist, wenn Sie die konstante Spalte von berücksichtigen 1's als Teil des Koordinatenvektors (oder alternativ in homogenen Koordinaten mit Normalisierung der zusätzlichen Koordinate). Oder könnte man einfach sagenX.β ist in beiden linear X. und β

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.