Was muss ich auf Normalität prüfen: Rohdaten oder Residuen?


27

Ich habe gelernt, dass ich nicht die Rohdaten, sondern deren Residuen auf Normalität prüfen muss. Sollte ich Residuen berechnen und dann den Shapiro-Wilk-W-Test durchführen?

Werden Residuen wie folgt berechnet: ?Ximean

Bitte sehen Sie diese vorherige Frage für meine Daten und das Design.


Verwenden Sie dazu Software (und wenn ja, welche Software) oder versuchen Sie, die Berechnungen von Hand durchzuführen?
Chris Simokat

@ Chris Simokat: Ich versuche , dies mit R und Statistica zu tun ...
stan

3
Diese Frage könnte von Interesse sein: Was-wäre-wenn-Residuen-normalverteilt sind,-aber-y-nicht ; Es wird auch die Frage behandelt, ob Normalität für die Rohdaten oder die Residuen erforderlich ist.
gung - Reinstate Monica

1
Tut mir leid, ich bin nicht geschickt genug, um zu wissen, wie ich das in verschiedenen Situationen automatisch machen kann. Wenn Sie jedoch eine Regression ausführen, sollten Sie in der Lage sein, die Residuen in einem Ausgabedatensatz zu speichern. Anschließend kann ein QQ-Plot erstellt werden.
gung - Wiedereinsetzung von Monica

1
Gute Informationen von Karen Grace-Martin: dies und das
stan

Antworten:


37

Warum müssen Sie auf Normalität prüfen?

Die Standardannahme bei der linearen Regression ist, dass die theoretischen Residuen unabhängig und normalverteilt sind. Die beobachteten Residuen sind eine Schätzung der theoretischen Residuen, sind jedoch nicht unabhängig (es gibt Transformationen der Residuen, die einen Teil der Abhängigkeit beseitigen, aber dennoch nur eine Annäherung an die wahren Residuen geben). Ein Test der beobachteten Residuen garantiert also nicht, dass die theoretischen Residuen übereinstimmen.

Wenn die theoretischen Residuen nicht genau normalverteilt sind, aber die Stichprobengröße groß genug ist, ist nach dem zentralen Grenzwertsatz die übliche Folgerung (Tests und Konfidenzintervalle, jedoch nicht unbedingt Vorhersageintervalle), die auf der Annahme der Normalität beruht, immer noch ungefähr korrekt .

Beachten Sie auch, dass die Normalitätstests Ausschlusstests sind. Sie können Ihnen mitteilen, dass die Daten wahrscheinlich nicht aus einer Normalverteilung stammen. Wenn der Test jedoch nicht aussagekräftig ist, was nicht bedeutet, dass die Daten aus einer normalen Verteilung stammen, kann dies auch bedeuten, dass Sie nicht über genügend Strom verfügen, um den Unterschied zu erkennen. Größere Stichprobengrößen bieten mehr Leistung für die Erkennung der Nichtnormalität, größere Stichproben und die CLT bedeuten jedoch, dass die Nichtnormalität am unwichtigsten ist. Für kleine Stichprobengrößen ist die Annahme der Normalität wichtig, aber die Tests sind bedeutungslos. Für große Stichprobengrößen sind die Tests möglicherweise genauer, aber die Frage der exakten Normalität wird bedeutungslos.

Wenn man also all das oben Genannte kombiniert, ist es wichtiger als ein Test der exakten Normalität, die Wissenschaft zu verstehen, die hinter den Daten steckt, um festzustellen, ob die Bevölkerung nahe genug an der Normalität liegt. Diagramme wie qqplots können eine gute Diagnose sein, aber es ist auch ein Verständnis der Wissenschaft erforderlich. Besteht die Befürchtung, dass zu viele Abweichungen vorliegen oder möglicherweise Ausreißer auftreten, stehen nicht parametrische Methoden zur Verfügung, für die keine Normalitätsannahme erforderlich ist.


6
Um die Frage in der ersten Zeile zu beantworten: Die ungefähre Normalität ist entscheidend für die Anwendung von F-Tests in ANOVA und für die Erstellung von Konfidenzgrenzen für Varianzen. (+1) für die guten Ideen.
whuber

4
@whuber, ja ungefähre Normalität ist wichtig, aber die Tests testen genaue Normalität, nicht ungefähr. Und bei großen Stichproben muss die ungefähre Größe nicht sehr genau sein (wo die Tests am wahrscheinlichsten ablehnen). Eine gute Darstellung und Kenntnisse der Wissenschaft, die die Daten erzeugt haben, sind viel nützlicher als ein formaler Test der Normalität, wenn Sie die Verwendung von F-Tests (oder anderen normalbasierten Schlussfolgerungen) rechtfertigen.
Greg Snow

Greg, OK, ich mache eine Verteilungsanpassung und sehe, dass meine Daten aus einer Beta oder Gamma Verteilung stammen und was soll ich dann tun? ANOVA, die das Gaußsche Gesetz annimmt?
stan

2
(+1) Das lief gut, außer am Ende. Sie müssen sich nicht zwischen (a) einer auf einer Normalitätsannahme basierenden Regression und (b) nichtparametrischen Verfahren entscheiden. Transformationen vor der Regression und / oder verallgemeinerte lineare Modelle sind nur zwei Hauptalternativen. Ich erkenne, dass Sie hier nicht versuchen, alles über statistische Modellierung zusammenzufassen, aber der letzte Teil könnte leicht erweitert werden.
Nick Cox

Am Ende sollten wir also in der linearen Regression die Normalität der Rohdaten oder die Normalität der Residuen testen?
Vasili111

7

Die Gaußschen Absaugungen beziehen sich auf die Residuen aus dem Modell. Es sind keine Annahmen über die ursprünglichen Daten erforderlich. Ein Beispiel dafür ist die Verteilung des täglichen Bierverkaufs. Bildbeschreibung hier eingebenNach einem vernünftigen Modell wurden der Wochentag, die Urlaubs- / Ereigniseffekte und die Pegelverschiebungen / Zeittrends erfasst, die wir erhaltenBildbeschreibung hier eingeben


Danke für deine Antwort. Sie möchten sagen, dass wir unsere Daten in eine Gaußsche Verteilung umwandeln können ...?
stan

3
Stan, die Rolle der Modellierung besteht darin, genau das zu tun, damit Rückschlüsse gezogen und Hypothesen überprüft werden können.
IrishStat

6

Zuerst kann man „Augapfel es“ einen mit QQ-Plot ein allgemeines Gefühl zu bekommen hier ist , wie man in R. zu erzeugen

Laut R-Handbuch können Sie Ihren Datenvektor direkt in die shapiro.test () -Funktion einspeisen.

Wenn Sie die Residuen selbst berechnen möchten, ja, jedes Residuum wird so über Ihre Beobachtungen berechnet. Hier können Sie mehr darüber sehen .


Soweit ich verstanden habe, überprüfen Methoden für Normalität tatsächlich die Normalität der Residuen unserer Rohdaten. Sie machen das automatisch und wir sollten keine Residuen berechnen und sie dem Test unterziehen. Und in der Alltagssprache wechseln wir normalerweise zu "Meine Daten sind normal verteilt", vorausgesetzt, die Reste meiner Daten sind "normal". Bitte korrigieren Sie mich.
stan

6
Ich bin mit Ihrem letzten Punkt nicht einverstanden. Leute, die sagen, dass meine Daten normal verteilt sind, beziehen sich normalerweise nicht auf die Residuen. Ich denke, die Leute sagen das, weil sie denken, dass für jedes statistische Verfahren alle Daten normal sein müssen.
Glen

@Glen Ehrlich gesagt denke ich (fälschlicherweise) bis jetzt dasselbe ... Ich kann nicht verstehen (das ist mein Problem), ob ich Gamma oder Beta oder was auch immer verteilte Daten habe, sollte ich Statistiken für sie so machen, wie sie normalerweise sind trotz ihrer wahren / natürlichen Verbreitung verteilt? Und die Tatsache der Verteilung ist nur zur Anzeige? Ich kenne vor dieser Site nur die Gaußsche Verbreitung ...
19.06.11
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.