In einigen Fällen scheint es klar zu sein, dass die Theorie am besten funktioniert (die Schwanzlängen von Mäusen sind wahrscheinlich normal verteilt).
Schwanzlängen sind sicherlich nicht normal verteilt.
Normalverteilungen haben eine Wahrscheinlichkeit ungleich Null, negative Werte anzunehmen. Schwanzlängen nicht.
Die berühmte Linie von George Box , " alle Modelle sind falsch, aber einige sind nützlich ", macht den Punkt ziemlich gut. Fälle, in denen wir die Normalität vernünftigerweise behaupten könnten (und nicht nur die ungefähre Normalität), sind in der Tat sehr selten, beinahe legendäre Wesen, Miragen, die gelegentlich fast aus dem Augenwinkel erblickten.
In vielen Fällen gibt es wahrscheinlich keine Theorie, um einen Datensatz zu beschreiben. Verwenden Sie also einfach etwas, das Ihren Vorstellungen entspricht, unabhängig davon, wofür es ursprünglich entwickelt wurde?
In Fällen, in denen die Mengen, an denen Sie interessiert sind, nicht besonders von der Auswahl abhängen (sofern die allgemeinen Merkmale der Distribution mit den bekannten übereinstimmen), können Sie einfach etwas verwenden, das recht gut passt.
In Fällen, in denen ein höheres Maß an Sensibilität vorhanden ist, reicht es nicht aus, nur etwas zu verwenden, das passt. Möglicherweise verwenden wir einen Ansatz, der keine besonderen Annahmen trifft (z. B. verteilungsfreie Prozeduren wie Permutation, Bootstrapping oder andere Resampling-Ansätze oder robuste Prozeduren). Alternativ können wir die Empfindlichkeit für die Verteilungsannahme quantifizieren, z. B. durch Simulation (in der Tat halte ich dies im Allgemeinen für eine gute Idee).
es scheint das problem zu geben, dass du vielleicht nur eine empirische verteilung verwenden solltest, wenn du wirklich keine ahnung hast.
Ich würde das nicht als problembasierenden Rückschluss auf empirische Verteilungen bezeichnen, sondern als legitimen Ansatz, der für viele Arten von Problemen geeignet ist (Permutation / Randomisierung und Bootstrapping sind zwei Beispiele).
Hat jemand eine kohärente Herangehensweise an dieses Problem?
Im Großen und Ganzen neige ich in vielen Fällen dazu, Fragen zu prüfen wie:
1) Was verstehe ich * darüber, wie sich Mittelwerte (oder andere standortbezogene Mengen) für Daten dieses Formulars verhalten?
* (ob aus der Theorie oder aus der Erfahrung mit dieser Art von Daten oder aus Expertenratschlägen oder erforderlichenfalls aus den Daten selbst, obwohl dies Probleme mit sich bringt, mit denen man sich befassen muss)
2) Was ist mit der Streuung (Varianz, IQR usw.) - wie verhält es sich?
3) Was ist mit anderen Verteilungsmerkmalen (Grenzen, Schiefe, Diskretion usw.)?
4) Was ist mit Abhängigkeit, Heterogenität der Populationen, Tendenz zu gelegentlich sehr unterschiedlichen Werten usw
Diese Art von Überlegung könnte die Wahl zwischen einem normalen Modell, einem GLM, einem anderen Modell oder einem robusten oder verteilungsfreien Ansatz (wie Bootstrapping oder Permutations- / Randomisierungsansätzen, einschließlich rangbasierter Verfahren) leiten.