Sind multiple und multivariate Regressionen wirklich unterschiedlich? Was ist überhaupt eine Variante?
Sind multiple und multivariate Regressionen wirklich unterschiedlich? Was ist überhaupt eine Variante?
Antworten:
Sehr schnell würde ich sagen: 'multiple' bezieht sich auf die Anzahl der Prädiktoren, die mit einem einzigen Ergebnis (Y-Antwort) in das Modell (oder entsprechend in die Entwurfsmatrix) eintreten, während sich 'multivariate' auf eine Matrix von Antwortvektoren bezieht. Ich kann mich nicht an den Autor erinnern, der mit dieser Überlegung den einleitenden Abschnitt zur multivariaten Modellierung beginnt, aber ich denke, es ist Brian Everitt in seinem Lehrbuch Ein R- und S-Plus-Begleiter zur multivariaten Analyse . Um dies gründlich zu diskutieren, schlage ich vor, sein neuestes Buch Multivariable Modellierung und Multivariate Analyse für die Verhaltenswissenschaften zu lesen .
Für 'variate' würde ich sagen, dass dies eine gebräuchliche Methode ist, um sich auf eine Zufallsvariable zu beziehen, die einer bekannten oder hypothetischen Verteilung folgt. Beispielsweise sprechen wir von Gaußvariablen als eine Reihe von Beobachtungen aus einer Normalverteilung (mit Parametern μ und σ 2 ). In probabilistischen Begriffen haben wir gesagt, dass dies einige zufällige Realisierungen von X mit mathematischer Erwartung μ sind und dass ungefähr 95% von ihnen auf dem Bereich [ μ - 2 σ liegen sollen ; μ + 2 σ ] .
Hier sind zwei nahe verwandte Beispiele, die die Ideen veranschaulichen. Die Beispiele sind etwas US-zentriert, aber die Ideen können auf andere Länder übertragen werden.
Beispiel 1
Angenommen, eine Universität möchte ihre Zulassungskriterien verfeinern, damit sie "bessere" Studenten zulässt. Angenommen, der Notendurchschnitt eines Studenten ist das, was die Universität als Leistungsmetrik für Studenten verwenden möchte. Sie haben verschiedene Kriterien im Sinn, wie zB High School GPA (HSGPA), SAT-Punktzahl (SAT), Geschlecht usw., und möchten wissen, welches dieser Kriterien für GPA von Bedeutung ist.
Lösung: Multiple Regression
Im obigen Kontext gibt es eine abhängige Variable (GPA) und Sie haben mehrere unabhängige Variablen (HSGPA, SAT, Geschlecht usw.). Sie möchten herausfinden, welche der unabhängigen Variablen gute Prädiktoren für Ihre abhängige Variable sind. Sie würden mehrfache Regression verwenden, um diese Beurteilung vorzunehmen.
Beispiel 2
Angenommen, die Zulassungsstelle möchte die Leistung der Schüler über einen bestimmten Zeitraum hinweg verfolgen und bestimmen, welches ihrer Kriterien die Leistung der Schüler über einen bestimmten Zeitraum hinweg bestimmt. Mit anderen Worten, sie haben GPA-Werte für die vier Jahre, in denen ein Schüler in der Schule bleibt (z. B. GPA1, GPA2, GPA3, GPA4), und sie möchten wissen, welche der unabhängigen Variablen die GPA-Werte für ein Jahr besser vorhersagen. Jahresbasis. Die Zulassungsstelle hofft, dass dieselben unabhängigen Variablen die Leistung über alle vier Jahre vorhersagen, sodass die Auswahl der Zulassungskriterien sicherstellt, dass die Leistung der Schüler über alle vier Jahre konstant hoch ist.
Lösung: Multivariate Regression
In Beispiel 2 haben wir mehrere abhängige Variablen (dh GPA1, GPA2, GPA3, GPA4) und mehrere unabhängige Variablen. In einer solchen Situation würden Sie eine multivariate Regression verwenden.
Weitere Lektüre:
Ich denke, die wichtigste Erkenntnis (und das Unterscheidungsmerkmal) neben der Anzahl der Variablen auf beiden Seiten der Gleichung ist, dass für den Fall der multivariaten Regression das Ziel darin besteht, die Tatsache zu nutzen, dass (im Allgemeinen) Korrelation zwischen Antwortvariablen besteht (oder Ergebnisse). Zum Beispiel können in einer medizinischen Studie Gewicht, Alter und Rasse als Prädiktoren dienen, und die Ergebnisvariablen sind Blutdruck und Cholesterin. Theoretisch könnten wir zwei "multiple Regressionsmodelle" erstellen, ein Modell, das den Blutdruck in Bezug auf Gewicht, Alter und Rasse reguliert, und ein zweites Modell, das das Cholesterin aufgrund derselben Faktoren reguliert. Alternativ könnten wir jedoch ein einzelnes multivariates Regressionsmodell erstellen, das beide prognostiziertBlutdruck und Cholesterin gleichzeitig basierend auf den drei Prädiktorvariablen. Die Idee ist, dass das multivariate Regressionsmodell insofern besser (prädiktiver) sein kann, als es mehr aus der Korrelation zwischen Blutdruck und Cholesterin bei Patienten lernen kann.
In der multivariaten Regression gibt es mehr als eine abhängige Variable mit unterschiedlichen Varianzen (oder Verteilungen). Die Prädiktorvariablen können mehr als eine oder mehrere sein. Es kann sich also um eine multiple Regression mit einer Matrix abhängiger Variablen handeln, dh um multiple Varianzen. Wenn wir jedoch multiple Regression sagen, meinen wir nur eine abhängige Variable mit einer einzelnen Verteilung oder Varianz. Die Prädiktorvariablen sind mehr als eins. Zusammenfassend bezieht sich mehrere auf mehr als eine Prädiktorvariable, aber multivariate auf mehr als eine abhängige Variable.