Angenommen, Sie haben eine Gruppe von Leuten, die bewerten, wie sehr sie einen Film auf einer diskreten Skala von 1 bis 10 mochten, und Sie möchten ein Intervall [ l , u ], das mit (mindestens) 95% Vertrauen (mindestens) 90 beträgt % aller Personen, die den Film sehen, bewerten ihn nicht niedriger als l und nicht höher als u . [ l , u ] ist dann ein (zweiseitiges) Toleranzintervall mit 95% Konfidenz und 90% Abdeckung. (Um klar zu sein, bedeutet 95% iges Vertrauen, dass bei mehrmaliger Wiederholung dieses Verfahrens 95% der erzeugten Intervalle eine Bevölkerungsabdeckung von mindestens 90% erhalten würden.) Natürlich möchten wir im Allgemeinen, dass [ l , u ] so eng wie möglich ist möglich, während unsere Anforderungen noch erfüllt werden.
Ich habe verschiedene nichtparametrische Methoden zum Erstellen von Toleranzintervallen für kontinuierliche Zufallsvariablen gesehen. Ich habe auch Methoden zum Erstellen von Toleranzintervallen für Binomial- und Poisson-Variablen gesehen. (Das R-Paket tolerance
implementiert mehrere dieser Methoden; Young, 2010.) Aber was ist mit diskreten Variablen, wenn die Verteilung unbekannt ist? Dies ist im Allgemeinen bei Bewertungsskalen wie der in meinem Beispiel der Fall, und die Annahme einer Binomialverteilung scheint nicht sicher zu sein, da echte Bewertungsskalendaten häufig Verrücktheiten wie Multimodalität aufweisen.
Wäre es sinnvoll, auf die nichtparametrischen Methoden für kontinuierliche Variablen zurückzugreifen? Was ist alternativ mit einer Monte-Carlo-Methode wie dem Generieren von 1.000 Bootstrap-Replikaten der Stichprobe und dem Finden eines Intervalls, das mindestens 90% der Stichprobe in mindestens 950 der Replikate erfasst?
Young, DS (2010). Toleranz: Ein R-Paket zur Schätzung von Toleranzintervallen. Journal of Statistical Software, 36 (5), 1–39. Abgerufen von http://www.jstatsoft.org/v36/i05