Ich werde Ihren Standpunkt zu Simulationen mit R beantworten, da dies der einzige ist, mit dem ich vertraut bin. R hat viele eingebaute Distributionen, die Sie simulieren können. Die Logik der Benennung besteht darin, eine Simulation zu simulieren, die als dis
Name bezeichnet wird rdis
.
Unten sind die, die ich am häufigsten benutze
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Sie können einige Ergänzungen in finden Montage Verteilungen mit R .
Ergänzung: Vielen Dank an @jthetzel für die Bereitstellung eines Links mit einer umfassenden Liste der Distributionen und der Pakete, zu denen sie gehören.
Aber warte, es gibt noch mehr: OK, nach dem Kommentar von @ whuber werde ich versuchen, die anderen Punkte anzusprechen. In Bezug auf Punkt 1 verfolge ich niemals einen Ansatz der Anpassungsgüte. Stattdessen denke ich immer über den Ursprung des Signals nach, wie die Ursache des Phänomens, gibt es einige natürliche Symmetrien in dem, was es erzeugt usw. Sie benötigen mehrere Kapitel des Buches, um es zu behandeln, also werde ich nur zwei Beispiele geben.
Wenn die Daten zählen und es keine Obergrenze gibt, versuche ich einen Poisson. Poisson-Variablen können als Anzahl aufeinanderfolgender unabhängiger Variablen während eines Zeitfensters interpretiert werden, was ein sehr allgemeiner Rahmen ist. Ich passe die Verteilung an und sehe (oft visuell), ob die Varianz gut beschrieben ist. Sehr oft ist die Varianz der Stichprobe viel höher. In diesem Fall verwende ich ein negatives Binomial. Negatives Binomial kann als eine Mischung aus Poisson mit verschiedenen Variablen interpretiert werden, was noch allgemeiner ist, sodass dies normalerweise sehr gut zur Stichprobe passt.
Wenn ich denke, dass die Daten symmetrisch zum Mittelwert sind, dh dass Abweichungen gleich wahrscheinlich positiv oder negativ sind, versuche ich, einen Gaußschen Wert anzupassen. Ich überprüfe dann (wieder visuell), ob es viele Ausreißer gibt, dh Datenpunkte, die sehr weit vom Mittelwert entfernt sind. Wenn ja, verwende ich stattdessen das t eines Schülers. Die t-Verteilung des Schülers kann als eine Mischung von Gaußschen mit unterschiedlichen Varianzen interpretiert werden, was wiederum sehr allgemein ist.
Wenn ich in diesen Beispielen visuell sage, meine ich, dass ich ein QQ-Diagramm verwende
Punkt 3 verdient auch mehrere Kapitel des Buches. Die Auswirkungen der Verwendung einer Distribution anstelle einer anderen sind unbegrenzt. Anstatt alles durchzugehen, werde ich die beiden obigen Beispiele fortsetzen.
In meinen frühen Tagen wusste ich nicht, dass negatives Binomial eine sinnvolle Interpretation haben kann, deshalb habe ich Poisson die ganze Zeit verwendet (weil ich die Parameter gerne in menschlichen Begriffen interpretieren möchte). Wenn Sie einen Poisson verwenden, passen Sie sehr oft gut zum Mittelwert, aber Sie unterschätzen die Varianz. Dies bedeutet, dass Sie keine Extremwerte Ihrer Stichprobe reproduzieren können und solche Werte als Ausreißer (Datenpunkte, die nicht die gleiche Verteilung wie die anderen Punkte haben) betrachten, während dies tatsächlich nicht der Fall ist.
Auch in meinen frühen Tagen wusste ich nicht, dass Student's t auch eine aussagekräftige Interpretation hat und ich würde die ganze Zeit den Gaußschen verwenden. Ähnliches geschah. Ich würde den Mittelwert und die Varianz gut anpassen, aber ich würde die Ausreißer immer noch nicht erfassen, da fast alle Datenpunkte innerhalb von 3 Standardabweichungen vom Mittelwert liegen sollen. Das gleiche passierte, ich kam zu dem Schluss, dass einige Punkte "außergewöhnlich" waren, während sie es tatsächlich nicht waren.