Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?


9

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

Mit der Summe der beobachteten Häufigkeiten meiner vier Ereignisse (18) kann ich die erwarteten Häufigkeiten der Ereignisse berechnen, oder?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

Wie kann ich beobachtete Werte mit erwarteten Werten vergleichen? um zu testen, ob meine berechneten Wahrscheinlichkeiten gute Prädiktoren sind?

Ich dachte an einen Chi-Quadrat-Test, aber das Ergebnis ändert sich mit der Stichprobengröße (n = 18). Ich meine, wenn ich beobachtete Werte mit 1342 multipliziere und dieselbe Methode verwende, ist das Ergebnis unterschiedlich. Vielleicht funktioniert ein Wilcox-Paired-Test, aber was schlagen Sie vor?

Wenn in R vorschlagen kann, wäre es besser.

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

Antworten:


4

Sie erwähnen, dass Sie unterschiedliche Ergebnisse erhalten, wenn Sie alle Werte mit multiplizieren . Das ist kein Problem. Sie sollten sehr unterschiedliche Ergebnisse erhalten. Wenn Sie eine Münze werfen und sie auftaucht, sagt dies nicht viel aus. Wenn Sie eine Münze Mal und jedes Mal Köpfe bekommen, haben Sie viel mehr Informationen, die darauf hindeuten, dass die Münze nicht fair ist.134213421342

Normalerweise möchten Sie Alternativen zu einem Test verwenden, wenn die erwartete Anzahl von Vorkommen in einem großen Prozentsatz Ihrer Kategorien (z. B. mindestens ) so gering ist (z. B. unter ). Eine Möglichkeit ist der exakte Fisher-Test , der in R implementiert ist . Sie können den Test als Annäherung an den exakten Fisher-Test anzeigen , und die Annäherung ist nur dann gut, wenn mehr der erwarteten Zählungen groß sind. 5 20 % χ 2χ2520%χ2


Danke, welches ist dafür besser: nur der Fischertest? oder der Fischertest mit p simuliertem Wert? und warum?
Juan

Die Simulation führt zu Fehlern, die zwar klein sind, für kleine Werte jedoch nicht erforderlich sein sollten. Wenn Sie Kategorien und Objekte haben, ist die Anzahl der möglichen Ergebnisse . Wenn dies nach den Standards von Computern klein ist (vielleicht weniger als ), würde ich nur exakte Berechnungen verwenden. Wenn die genauen Berechnungen langsam sind, testen Sie die Fehler der Simulationen und prüfen Sie, ob sie für die Geschwindigkeitssteigerung akzeptabel sind. nkn(n+k1n)107
Douglas Zare
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.