"Y muss normal verteilt sein"
Muss?
In den Fällen, in denen Sie erwähnen, dass es sich um eine schlampige Sprache handelt (Abkürzung für "Der Fehler in Y muss normal verteilt sein" ), aber sie sagen nicht wirklich (nachdrücklich), dass die Antwort normal verteilt sein muss oder zumindest nicht mir, dass ihre Worte so gedacht waren.
Das Penn State Kursmaterial
spricht von "einer stetigen Variablen "Y , aber auch von " " wie in wobei wir betrachten , was in den Kommentaren als "bedingt" bezeichnet wird, normalerweise verteilt,YiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
Der Artikel verwendet und synonym. Während des gesamten Artikels spricht man über die 'Verteilung von Y', zum Beispiel: YYi
an einem anderen Punkt beziehen sie sich jedoch auch auf anstelle von :YiY
Die abhängige Variable muss NICHT normalverteilt sein, sondern nimmt normalerweise eine Verteilung aus einer Exponentialfamilie an (z. B. Binomial, Poisson, Multinomial, Normal, ...).Yi
Die Webseite für Statistiklösungen
ist eine extrem kurze, vereinfachte, stilisierte Beschreibung. Ich bin mir nicht sicher, ob Sie das ernst nehmen sollten. Zum Beispiel spricht es über
..erfordert, dass alle Variablen multivariat normal sind ...
das ist also nicht nur die Antwortvariable,
und auch der "multivariate" Deskriptor ist vage. Ich bin nicht sicher, wie ich das interpretieren soll.
Der Wikipedia-Artikel
hat einen zusätzlichen Kontext in Klammern erklärt:
Eine gewöhnliche lineare Regression sagt den erwarteten Wert einer gegebenen unbekannten Größe (die Antwortvariable, eine Zufallsvariable) als eine lineare Kombination einer Menge beobachteter Werte (Prädiktoren) voraus . Dies impliziert, dass eine konstante Änderung eines Prädiktors zu einer konstanten Änderung der Antwortvariablen führt (dh ein lineares Antwortmodell). Dies ist angemessen, wenn die Antwortvariable eine Normalverteilung aufweist (intuitiv, wenn eine Antwortvariable ohne festen "Nullwert" im Wesentlichen unbegrenzt in jede Richtung variieren kann, oder allgemeiner für jede Größe, die nur um einen relativ kleinen Betrag variiert, z. B. Mensch Höhen).
Dieser "kein fester Nullwert" scheint auf den Fall hinzudeuten, dass eine Linearkombination wenn eine unendliche Domäne hat (von minus unendlich bis plus unendlich), während oft viele Variablen einige haben Endlicher Grenzwert (z. B. Anzahl, die keine negativen Werte zulässt).y+ϵϵ∼N(0,σ)
Die besondere Linie hat hinzugefügt 8. März 2012 , aber beachten Sie, dass die erste Zeile des Artikels Wikipedia noch liest „eine flexible Verallgemeinerung der gewöhnlichen linearen Regression , die für die Antwortvariablen ermöglicht , die haben Fehlerverteilungsmodelle andere als eine normale Verteilung“ und ist nicht so viel (nicht überall) falsch.
Fazit
Also, auf der Grundlage dieser drei Beispiele (was in der Tat könnte erzeugen Missverständnisse oder zumindest könnte falsch verstanden werden) Ich würde nicht sagen , dass „diese falsche Vorstellung Ausbreitung hat“ . Zumindest scheint es mir nicht die Absicht dieser drei Beispiele zu sein, zu argumentieren, dass Y normalverteilt sein muss (obwohl ich mich erinnere, dass dieses Problem hier zuvor beim Stapelaustausch, dem Austausch zwischen normalverteilten Fehlern und normalverteilten Antwortvariablen aufgetreten ist) ist einfach zu machen).
Die Annahme, dass "Y muss normal verteilt sein", scheint mir also kein verbreiteter Glaube / Irrtum zu sein (wie bei etwas, das sich wie ein roter Hering ausbreitet), sondern eher ein häufiger Fehler (der nicht verbreitet, sondern jedes Mal unabhängig gemacht wird) ).
Zusätzlicher Kommentar
Ein Beispiel für den Fehler auf dieser Website ist die folgende Frage
Was ist, wenn die Residuen normal verteilt sind, y jedoch nicht?
Ich würde dies als Anfängerfrage betrachten. Es ist nicht in den Materialien wie dem Kursmaterial von Penn State oder der Wikipedia-Website enthalten und hat kürzlich in den Kommentaren das Buch „Erweiterung der linearen Regression mit R“ erwähnt.
Die Autoren dieser Werke verstehen das Material richtig. In der Tat verwenden sie Ausdrücke wie "Y muss normal verteilt sein", aber basierend auf dem Kontext und den verwendeten Formeln können Sie sehen, dass sie alle "Y, bedingt durch X, muss normal verteilt sein" und nicht "das marginale Y muss" bedeuten normal verteilt sein '. Sie verstehen die Idee selbst nicht falsch, und zumindest ist die Idee unter Statistikern und Personen, die Bücher und andere Kursmaterialien schreiben, nicht weit verbreitet. Ein falsches Lesen ihrer mehrdeutigen Worte kann jedoch tatsächlich zu einer falschen Auffassung führen.