Wie berechnet man eine Stichprobengröße zur Überprüfung der Richtigkeit / Unrichtigkeit von Datensätzen in einer Datentabelle?

Ich habe vorhandene Antworten auf CrossValidated (und an anderer Stelle online) gelesen und kann nicht finden, wonach ich suche. Bitte verweise mich jedoch auf vorhandene Quellen, wenn ich sie verpasst habe.

Angenommen, ich habe einen Datensatz mit N = 1000 Datensätzen, von denen jeder manuell abgetastet und entweder als "gültig" oder "ungültig" (oder als wahr / falsch, richtig / falsch usw.) gekennzeichnet werden kann.

Ich möchte ein bestimmtes Maß an Sicherheit erreichen, dass alle Datensätze im Datensatz gültig sind. Wenn ich beim Probieren von Datensätzen einen einzelnen ungültigen Datensatz finde, gehe ich zurück und ändere, wie der Datensatz erstellt wird, um dieses und ähnliche Probleme zu beheben.

Nach einigen Iterationen des Erkennens von Invaliden, des Fixierens und Neuerstellens des Datensatzes führe ich einige Stichproben durch, die nur gültige Datensätze enthalten. Wenn ich zu 99% oder 95% sicher sein möchte, dass alle Datensätze gültig sind, wie groß muss meine Stichprobe sein? (Idealerweise als Funktion von N.)

Ich habe versucht, mit hypergeometrischen Tests herumzuspielen ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - in diesem Zusammenhang möchte ich wissen, was k sein soll, aber ich habe keinen festen Wert von K. Vielmehr möchte ich k so wählen, dass K wahrscheinlich gleich N ist - aber das Setzen von K = N ergibt offensichtlich eine Wahrscheinlichkeit von 1! Ich frage mich auch, ob ich einen Bayes'schen Ansatz verwenden muss, aber ich verstehe die Bayes'schen Statistiken nicht genug.

— Stuart J Cuthbertson
quelle

Mögliches Duplikat der Berechnung von Konfidenzintervallen für einen Anteil, wenn die Stichprobe keine "Erfolge" aufweist

— Scortchi - Reinstate Monica

Auch hier und hier .

— Scortchi - Monica wieder einsetzen

Vielen Dank. Ich denke, alle drei sind hilfreich und das dritte (insbesondere) ist im Grunde genau das gleiche Szenario, das ich habe. Ich werde sehen, was ich mit diesen Antworten anfangen kann - die Dreierregel klingt sehr hilfreich!

— Stuart J Cuthbertson

Bitte. Bearbeiten Sie Ihre Frage hier, wenn etwas unklar bleibt.

— Scortchi - Monica wieder einsetzen

Sie haben es wahrscheinlich schon herausgefunden: aber da die Frage nicht als Duplikat geschlossen wurde, ist & nicht ganz ein genaues Duplikat; Ich dachte, es könnte sich lohnen, eine Antwort zu formulieren.

— Scortchi - Monica wieder einsetzen

Dies kann als Test der Nullhypothese, dass der Datensatz einige ungültige Datensätze enthält ( ), gegenüber der Alternative, dass keine vorhanden sind ( ), eingerahmt werden, da in der Stichprobe keine ungültigen Datensätze gefunden wurden ( ). Die proximale Null, die am schwierigsten abzulehnen ist, ist, dass es einen einzelnen ungültigen Datensatz gibt ( ). Ersetzen Sie diese durch die hypergeometrische Wahrscheinlichkeitsmassenfunktion für eine Stichprobe der Größe aus einem Datensatz der Größe , um den p-Wert zu erhalten (es sind möglicherweise keine kleineren Werte von zu berücksichtigen): $K>0$ $K=0$ $k=0$ $K=1$ $n$ $N$ $k$

f (k) = \frac{(\binom{K}{k}) (\binom{N - K}{n - k})}{(\binom{N}{n})}

$f(k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$

= \frac{(\binom{1}{0}) (\binom{N - 1}{n - 0})}{(\binom{N}{n})}

$= \frac{\binom{1}{0}\binom{N-1}{n-0}}{\binom{N}{n}}$

= \frac{N - n}{N} = p

$=\frac{N-n}{N}=p$

Die minimale Stichprobengröße erforderlich ist, um die Nullhypothese bei einem Signifikanzniveau ablehnen zu können (oder äquivalent, um ein einseitiges Konfidenzintervall von ), ist einfach $n^*$ $p$ $\alpha=1-p$ $K=0$

n^{*} = ⌈ (1 - p) N ⌉

$n^*=\lceil (1-p) N \rceil$

n^{*} = ⌈ α N ⌉

$n^*=\lceil \alpha N \rceil$

Mit und ist . Wenn das viel zu sein scheint, denken Sie daran, dass die Gültigkeit aller tausend Datensätze ein strenges Kriterium ist. Wenn Sie überlegen, es zu entspannen, kann der gleiche Ansatz verwendet werden, um beispielsweise zu testen . $N=1000$ $\alpha=0.95$ $n^*=950$ $K>9$

— Scortchi - Monica wieder einsetzen
quelle

Das ist ein anderer Ansatz als das, was ich aus dem Lesen der verlinkten Artikel (dh der Anwendung der Dreierregel) geschlossen hatte. Es ist jedoch sinnvoll und tatsächlich weniger konservativ als die Regel von 3 (die, wenn ich meine Summen richtig gemacht habe, empfiehlt, 3000 Datensätze für N = 1000 abzutasten). Die allgemeine Schlussfolgerung von "Statistik besagt, dass Sie genauso gut alles überprüfen können, wenn Sie so sicher sein müssen" gilt für beide Ansätze.

— Stuart J Cuthbertson

Beachten Sie, dass die Dreierregel nur annähernd für Stichproben ohne Ersatz aus einer endlichen Population gilt. wenn .

n ≪ N

$n \ll N$

— Scortchi - Monica wieder einsetzen