Ich habe vorhandene Antworten auf CrossValidated (und an anderer Stelle online) gelesen und kann nicht finden, wonach ich suche. Bitte verweise mich jedoch auf vorhandene Quellen, wenn ich sie verpasst habe.
Angenommen, ich habe einen Datensatz mit N = 1000 Datensätzen, von denen jeder manuell abgetastet und entweder als "gültig" oder "ungültig" (oder als wahr / falsch, richtig / falsch usw.) gekennzeichnet werden kann.
Ich möchte ein bestimmtes Maß an Sicherheit erreichen, dass alle Datensätze im Datensatz gültig sind. Wenn ich beim Probieren von Datensätzen einen einzelnen ungültigen Datensatz finde, gehe ich zurück und ändere, wie der Datensatz erstellt wird, um dieses und ähnliche Probleme zu beheben.
Nach einigen Iterationen des Erkennens von Invaliden, des Fixierens und Neuerstellens des Datensatzes führe ich einige Stichproben durch, die nur gültige Datensätze enthalten. Wenn ich zu 99% oder 95% sicher sein möchte, dass alle Datensätze gültig sind, wie groß muss meine Stichprobe sein? (Idealerweise als Funktion von N.)
Ich habe versucht, mit hypergeometrischen Tests herumzuspielen ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - in diesem Zusammenhang möchte ich wissen, was k sein soll, aber ich habe keinen festen Wert von K. Vielmehr möchte ich k so wählen, dass K wahrscheinlich gleich N ist - aber das Setzen von K = N ergibt offensichtlich eine Wahrscheinlichkeit von 1! Ich frage mich auch, ob ich einen Bayes'schen Ansatz verwenden muss, aber ich verstehe die Bayes'schen Statistiken nicht genug.