Ich bin ein absoluter Neuling :)
Ich mache eine Studie mit einer Stichprobengröße von 10.000 aus einer Bevölkerung von etwa 745.000. Jede Stichprobe repräsentiert eine "prozentuale Ähnlichkeit". Die große Mehrheit der Proben liegt zwischen 97% und 98%, einige jedoch zwischen 60% und 90%, dh die Verteilung ist stark negativ verzerrt. Etwa 0,6% der Ergebnisse sind 0%, diese werden jedoch getrennt von der Probe behandelt.
Der Mittelwert aller 10.000 Stichproben liegt bei 97,7%, und nur in Excel beträgt der StdDev 3,20. Ich verstehe, dass der StdDev hier nicht wirklich anwendbar ist, weil die Ergebnisse nicht normal verteilt sind (und weil die +3,20 Sie über 100% bringen würden!).
Meine Fragen sind:
- Ist Bootstrapping (ein neues Konzept für mich) angemessen?
- Bin ich richtig bootstrapping :)
- Was ist eine ausreichende Stichprobengröße?
Was ich tue, ist das erneute Abtasten (mit Ersetzen) meiner 10.000 Ergebnisse und das Berechnen eines neuen Mittelwerts. Ich mache das ein paar tausend Mal und speichere jeden Mittelwert in einem Array. Ich berechne dann den "Mittelwert der Mittelwerte" und dies ist mein statistisches Ergebnis. Um den 99% CI zu berechnen, wähle ich den 0,5% -ten Wert und den 99,5% -ten Wert, und dies ergibt einen sehr engen Bereich: 97,4% - 98,0%. Ist das ein gültiges Ergebnis oder mache ich etwas falsch?
Was die Stichprobengröße betrifft, beprobe ich nur etwa 1,3% der Bevölkerung - ich habe keine Ahnung, ob dies "genug" ist. Woher weiß ich, ob meine Stichprobe repräsentativ für die Bevölkerung ist? Im Idealfall möchte ich zu 99% von einem Mittelwert überzeugt sein, der +/- 0,50% Prozentpunkte (dh 97,2% - 98,2%) beträgt.
Vielen Dank im Voraus für alle Tipps!