Was Sie daraus schließen, wenn es sich bei den Daten um IID handelt, stammt von externen Informationen, nicht von den Daten selbst. Sie als Wissenschaftler müssen auf der Grundlage der Art und Weise, wie die Daten gesammelt wurden, und anderer externer Informationen feststellen, ob es sinnvoll ist, die Daten-IID anzunehmen.
Betrachten Sie einige Beispiele.
Szenario 1: Wir generieren einen Datensatz unabhängig von einer einzelnen Verteilung, die zufällig eine Mischung aus zwei Normalen ist.
Szenario 2: Wir generieren zuerst eine Geschlechtsvariable aus einer Binomialverteilung, dann generieren wir innerhalb von Männern und Frauen unabhängig Daten aus einer Normalverteilung (aber die Normalen sind für Männer und Frauen unterschiedlich), dann löschen oder verlieren wir die Geschlechtsinformationen.
In Szenario 1 sind die Daten IID und in Szenario 2 sind die Daten eindeutig nicht identisch verteilt (unterschiedliche Verteilungen für Männer und Frauen), aber die beiden Verteilungen für die beiden Szenarien sind von den Daten nicht unterscheidbar. Sie müssen wissen, wie die Daten aussehen wurde generiert, um die Differenz zu bestimmen.
Szenario 3: Ich nehme eine einfache Zufallsstichprobe von Menschen, die in meiner Stadt leben, führe eine Umfrage durch und analysiere die Ergebnisse, um Rückschlüsse auf alle Menschen in der Stadt zu ziehen.
Szenario 4: Ich nehme eine einfache Zufallsstichprobe von Menschen, die in meiner Stadt leben, führe eine Umfrage durch und analysiere die Ergebnisse, um Rückschlüsse auf alle Menschen im Land zu ziehen.
In Szenario 3 würden die Probanden als unabhängig betrachtet (einfache Zufallsstichprobe der interessierenden Bevölkerung), in Szenario 4 würden sie jedoch nicht als unabhängig angesehen, da sie aus einer kleinen Untergruppe der interessierenden Bevölkerung ausgewählt wurden und die geografische Nähe wahrscheinlich dazu führen würde Abhängigkeit. Die beiden Datensätze sind jedoch identisch. Wir beabsichtigen, die Daten so zu verwenden, dass festgestellt wird, ob sie in diesem Fall unabhängig oder abhängig sind.
Es gibt also keine Möglichkeit, nur anhand der Daten zu testen, ob es sich um IID-Daten handelt. Diagramme und andere Diagnosen können einige Arten von Nicht-IID-Daten anzeigen. Das Fehlen dieser Daten garantiert jedoch nicht, dass es sich um IID-Daten handelt. Sie können auch mit bestimmten Annahmen vergleichen (IID normal ist leichter zu widerlegen als nur IID). Jeder Test ist immer noch ein Ausschluss, aber wenn die Tests nicht abgelehnt werden, bedeutet dies niemals, dass es sich um eine IID handelt.
Entscheidungen darüber, ob Sie bereit sind anzunehmen, dass IID-Bedingungen zutreffen, müssen auf der Grundlage der wissenschaftlichen Erkenntnisse getroffen werden, wie die Daten erfasst wurden, in welcher Beziehung sie zu anderen Informationen stehen und wie sie verwendet werden.
Bearbeitungen:
Hier finden Sie weitere Beispiele für nicht identisch.
Szenario 5: Die Daten sind Residuen einer Regression, bei der Heteroskedastizität vorliegt (die Varianzen sind nicht gleich).
Szenario 6: Die Daten stammen aus einer Mischung von Normalen mit dem Mittelwert 0, aber unterschiedlichen Abweichungen.
In Szenario 5 können wir deutlich sehen, dass die Residuen nicht identisch verteilt sind, wenn wir die Residuen gegen angepasste Werte oder andere Variablen (Prädiktoren oder potenzielle Prädiktoren) zeichnen, aber die Residuen selbst (ohne die externen Informationen) wären nicht von Szenario 6 zu unterscheiden.