Meine Frage könnte wie folgt umformuliert werden: "Wie kann ein Stichprobenfehler mithilfe von Big Data bewertet werden?", Insbesondere für eine Zeitschriftenveröffentlichung. Hier ist ein Beispiel, um eine Herausforderung zu veranschaulichen.
Aus einem sehr großen Datensatz (> 100000 eindeutige Patienten und deren verschriebene Medikamente aus 100 Krankenhäusern) wollte ich einen Anteil der Patienten abschätzen, die ein bestimmtes Medikament einnehmen. Es ist unkompliziert, dieses Verhältnis zu erhalten. Sein Konfidenzintervall (z. B. parametrisch oder Bootstrap) ist unglaublich eng, weil n sehr groß ist. Obwohl es ein Glück ist, eine große Stichprobe zu haben, suche ich immer noch nach einer Möglichkeit, einige Arten von Fehlerwahrscheinlichkeiten zu bewerten, darzustellen und / oder zu visualisieren. Es erscheint zwar nicht hilfreich (wenn nicht irreführend), ein Konfidenzintervall anzugeben / darzustellen (z. B. 95% CI: .65878 - .65881), es scheint jedoch auch unmöglich, Aussagen über Unsicherheiten zu vermeiden.
Bitte sag mir was du denkst. Ich würde mich über Literatur zu diesem Thema freuen. Möglichkeiten, um zu viel Vertrauen in Daten auch bei einer großen Stichprobe zu vermeiden.