Warum testen manche Leute regressionsähnliche Modellannahmen an ihren Rohdaten und andere Leute testen sie an den Residuen?

Ich bin ein Doktorand in experimenteller Psychologie und ich bemühe mich sehr, meine Fähigkeiten und Kenntnisse im Analysieren meiner Daten zu verbessern.

Bis zu meinem 5. Jahr in Psychologie dachte ich, dass die regressionsähnlichen Modelle (zB ANOVA) die folgenden Dinge annehmen:

Normalität der Daten
Varianzhomogenität für die Daten und so weiter

Meine Grundstudiengänge ließen mich glauben, dass die Annahmen sich auf die Daten bezogen. In meinem fünften Jahr unterstrichen einige meiner Ausbilder jedoch, dass sich die Annahmen auf den Fehler (geschätzt durch die Residuen) und nicht auf die Rohdaten beziehen.

Vor kurzem habe ich mit einigen meiner Kollegen über die Frage nach den Annahmen gesprochen. Sie gaben auch zu, dass es wichtig ist, die Annahmen zum Residuum erst in den letzten Studienjahren zu überprüfen.

Wenn ich es richtig verstehe, nehmen die regressionsähnlichen Modelle Annahmen über den Fehler an. Daher ist es sinnvoll, die Annahmen zu den Residuen zu überprüfen. Wenn ja, warum überprüfen einige Leute die Annahmen zu den Rohdaten? Liegt es daran, dass ein solches Überprüfungsverfahren in etwa dem entspricht, was wir durch Überprüfen des Rests erhalten würden?

Ich würde mich sehr über eine Diskussion zu diesem Thema mit einigen Leuten freuen, die genauere Kenntnisse haben als meine Kollegen und ich. Ich danke Ihnen im Voraus für Ihre Antworten.

— Psychokwak
quelle

Antworten:

Grundsätzlich sind Sie auf dem richtigen Weg. Sie finden eine Diskussion über den Aspekt der Normalität in Normalität der abhängigen Variablen = Normalität der Residuen?

Einige Annahmen des klassischen linearen Modells beziehen sich in der Tat auf Fehler (unter Verwendung von Residuen als deren Realisierung):

Sind sie unkorreliert? (Relevant für Inferenz und Optimalität der OLS-Schätzer)
Haben sie die gleiche Varianz? (Relevant für Inferenz und Optimalität der OLS-Schätzer)
Sind sie um 0 zentriert? (Schlüsselannahme, um unvoreingenommene Schätzer und Vorhersagen zu erhalten)
Wenn die Stichprobe sehr klein ist: Sind sie normal oder zumindest symmetrisch verteilt? (Relevant für Inferenz)

Andere Bedingungen beziehen sich auf "Rohdaten":

Gibt es keine groben Ausreißer in Regressoren? (Beobachtungen mit hohem Hebel können das gesamte Modell zerstören.)
Keine perfekte Multikollinearität? (Würde zumindest in einigen Softwarepaketen zu Rechenproblemen führen.)

Nun könnte Ihr Grundschullehrer auch richtig sein:

Vielleicht haben Sie sich auf univariate Tests wie den T-Test mit einer Stichprobe konzentriert. Dort beziehen sich die Annahmen auf die Rohdaten.
Wenn ziemlich niedrig ist und die Antwortvariable alles andere als normal aussieht, gilt dies höchstwahrscheinlich auch für die Residuen. $R^2$
Wie würden Sie Homoskedastizität etc. anhand von Rohdaten überprüfen? Vielleicht haben Sie ihn oder sie falsch verstanden.

— Michael M
quelle

Ok, vielen Dank für Ihre Antwort und für den Link, der sehr nützlich ist. Einige meiner Kollegen und ich waren bis vor kurzem der Meinung, dass die Rohdaten gleiche Abweichungen aufweisen sollten. Wie Sie sagten, haben wir vielleicht etwas in unseren Kursen verpasst. In einigen Büchern können wir folgendes lesen:

— Psychokwak

"Die gängigsten statistischen Verfahren gehen von zwei Annahmen aus, die für dieses Thema relevant sind: (a) der Annahme, dass die Variablen (oder ihre Fehlerterme, technisch gesehen) normal verteilt sind, und (b) der Annahme der Varianzgleichheit (Homoskedastizität oder Homogenität) Varianz), was bedeutet, dass die Varianz der Variablen über den beobachteten Bereich einer anderen Variablen konstant bleibt. " Bedeutet das, dass man, wenn man von "Variablen" spricht, systematisch von "ihren Fehlerbegriffen" spricht? Wenn ja, bin ich damit einverstanden, aber ohne ausdrückliche Erwähnung ist es alles andere als offensichtlich (zumindest für mich).

— Psychokwak

Schließlich habe ich noch eine letzte Frage zu Ihren Antworten. Wenn t-Test und ANOVA besondere Fälle der Regression sind, warum beziehen sich die Annahmen auf die Daten in einem t-Test mit einer Stichprobe? Nochmals vielen Dank für Ihre nützliche Antwort.

— Psychokwak

Um Ihren letzten Kommentar zu beantworten: Der T-Test mit einer Stichprobe kann auch als Sonderfall der Regression angesehen werden. Das Modell besteht einfach aus dem Achsenabschnitt (= Mittelwert) und dem Fehlerterm, dh die Antwort ist ein verschobener Fehler. Da Verschiebungen für jede Annahme irrelevant sind, ist es äquivalent, über Daten oder Residuen zu sprechen.

— Michael M

Ich finde die Unterscheidung zwischen Residuen und Rohdaten nicht hilfreich, da sich beide eher auf Ihre tatsächliche Stichprobe und nicht auf die zugrunde liegende Populationsverteilung beziehen. Es ist besser, sich einige Anforderungen als "Anforderungen innerhalb einer Gruppe" und andere als "Anforderungen zwischen Gruppen" vorzustellen.

Zum Beispiel ist die Varianzhomonität eine "Zwischengruppenannahme", da sie besagt, dass die Varianz innerhalb der Gruppe für alle Gruppen gleich ist.

Normalität ist eine "innerhalb der Gruppe" Annahme, die erfordert, dass innerhalb jeder Gruppe y normal verteilt ist.

Beachten Sie, dass Normalität über Ihr gesamtes rohes y in der Regel bedeutet, dass Sie keine Auswirkung haben. Betrachten Sie die Verteilung des Geschlechts, ohne zwischen Frauen und Männern zu unterscheiden. Es wird aufgrund des starken Gender-Effekts nicht normal verteilt. Aber in jedem Geschlecht gilt das ganz gut.

— Erik
quelle

Danke auch für deine Antwort. Es ist eine interessante Art, die Frage zu sehen. Ich hatte nie so über Normalität nachgedacht (dh "Normalität über das gesamte rohe y zu haben bedeutet normalerweise, dass wir keine Wirkung haben").

— Psychokwak