Man betrachte das Folgende aus den Seiten 254–256 von Sauro, J. & Lewis, JR (2016). Quantifizierung der Benutzererfahrung: Praktische Statistik für die Benutzerforschung, 2. Aufl. Cambridge, MA: Morgan-Kaufmann (Sie können unter https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ nachsehen .)
MÜSSEN SIE MINDESTENS 30 BENUTZER TESTEN?
AUF DER EINEN SEITE
Wahrscheinlich haben die meisten von uns, die an einem Einführungskurs zur Statistik teilgenommen haben (oder jemanden kennen, der an einem solchen Kurs teilgenommen hat), die Faustregel gehört, dass zum Schätzen oder Vergleichen der Mittel Ihre Stichprobengröße mindestens 30 betragen sollte. Mit zunehmender Stichprobengröße wird die Verteilung des Mittelwerts immer normaler, unabhängig von der Normalität der zugrunde liegenden Verteilung. Einige Simulationsstudien haben gezeigt, dass für eine Vielzahl von Verteilungen (aber nicht für alle - siehe Bradley, 1978) die Verteilung des Mittelwerts nahezu normal wird, wenn n = 30 ist.
Eine weitere Überlegung ist, dass es etwas einfacher ist, Z-Scores anstelle von T-Scores zu verwenden, da für Z-Scores keine Freiheitsgrade erforderlich sind. Wie in Tabelle 9.1 und Abb. 9.2 gezeigt, nähert sich der Wert von t zum Zeitpunkt, an dem Sie ungefähr 30 Freiheitsgrade haben, ziemlich dem Wert von z an. Folglich kann das Gefühl bestehen, dass Sie sich nicht mit kleinen Stichproben befassen müssen, für die eine Statistik mit kleinen Stichproben erforderlich ist (Cohen, 1990). ...
AUF DER ANDEREN SEITE
Wenn die Kosten einer Stichprobe teuer sind, wie es bei vielen Arten der Nutzerforschung der Fall ist (z. B. moderierte Usability-Tests), ist es wichtig, die benötigte Stichprobengröße so genau wie möglich zu schätzen, wobei zu berücksichtigen ist, dass es sich um eine Schätzung handelt. Die Wahrscheinlichkeit, dass 30 genau die richtige Stichprobe für einen bestimmten Satz von Umständen ist, ist sehr gering. Wie in unseren Kapiteln zur Stichprobengrößenschätzung gezeigt, besteht ein geeigneterer Ansatz darin, die Formeln zur Berechnung der Signifikanzniveaus eines statistischen Tests zu verwenden und sie unter Verwendung der Algebra zur Lösung nach n in Stichprobengrößenschätzungsformeln umzuwandeln. Diese Formeln bieten dann spezifische Anleitungen dazu, was Sie für eine bestimmte Situation wissen oder schätzen müssen, um die erforderliche Stichprobengröße zu schätzen.
Die Vorstellung, dass auch bei der t-Verteilung (im Gegensatz zur z-Verteilung) eine Stichprobengröße von mindestens 30 erforderlich ist, widerspricht dem Verlauf der Verteilungsentwicklung. Im Jahr 1899 wurde William S. Gossett, ein Absolvent des New College in Oxford mit Abschlüssen in Chemie und Mathematik, einer der ersten Wissenschaftler, der sich der Guinness-Brauerei anschloss. „Im Vergleich zu den Giganten seiner Zeit hat er sehr wenig veröffentlicht, aber sein Beitrag ist von entscheidender Bedeutung. … Aufgrund der Art des Brauprozesses mit seinen unterschiedlichen Temperaturen und Zutaten ist es nicht möglich, auf lange Sicht große Proben zu entnehmen “(Cowles, 1989, S. 108–109).
Dies bedeutete, dass Gossett keine Z-Scores in seiner Arbeit verwenden konnte - sie funktionieren einfach nicht gut mit kleinen Samples. Nachdem er die Mängel der Z-Verteilung für statistische Tests mit kleinen Stichproben analysiert hatte, erarbeitete er die erforderlichen Anpassungen in Abhängigkeit von den Freiheitsgraden, um seine T-Tabellen zu erstellen, die unter dem Pseudonym "Student" veröffentlicht wurden, da Guinness die Veröffentlichung verbot von Mitarbeitern (Salsburg, 2001). In der Arbeit, die zur Veröffentlichung der Tabellen führte, führte Gossett eine frühe Version der Monte-Carlo-Simulationen durch (Stigler, 1999). Er bereitete 3000 Karten vor, die mit physischen Maßen versehen waren, die an Kriminellen gemessen wurden, mischte sie und teilte sie dann in 750 Gruppen der Größe 4 ein - eine Stichprobe, die viel kleiner als 30 war.
UNSERE EMPFEHLUNG
Diese Kontroverse ähnelt dem in Kapitel 6 behandelten Argument „Fünf ist genug“ im Vergleich zu „Acht ist nicht genug“, das jedoch eher auf summative als auf formative Forschung angewendet wird. Bei jeder Untersuchung hängt die Anzahl der zu testenden Benutzer vom Zweck des Tests und der Art der Daten ab, die Sie sammeln möchten. Die „magische Zahl“ 30 hat einige empirische Gründe, ist aber unserer Meinung nach sehr schwach. Wie Sie an den zahlreichen Beispielen in diesem Buch sehen können, deren Stichprobengröße nicht gleich 30 ist (manchmal weniger, manchmal mehr), wird diese Faustregel nicht sehr hoch geschätzt. Wie in unserem Kapitel über die Stichprobengröße für summative Untersuchungen beschrieben, hängt die geeignete Stichprobengröße für eine Studie von der Art der Verteilung, der erwarteten Variabilität der Daten, dem gewünschten Vertrauens- und Leistungsniveau ab.
Wie in Abb. 9.2 dargestellt, kompensieren die sehr großen Werte von t bei Verwendung der t-Verteilung mit sehr kleinen Stichproben (z. B. mit Freiheitsgraden unter 5) kleine Stichprobengrößen im Hinblick auf die Kontrolle von Fehlern des Typs I ( einen Unterschied zu behaupten, ist bedeutend, wenn es wirklich nicht so ist). Bei so kleinen Stichproben sind Ihre Konfidenzintervalle viel breiter als bei größeren Stichproben. Wenn Sie jedoch mit mehr als 5 Freiheitsgraden zu tun haben, gibt es kaum einen absoluten Unterschied zwischen dem Wert von z und dem Wert von t. Aus der Perspektive der Annäherung von t an z ergibt sich nach 10 Freiheitsgraden nur ein sehr geringer Gewinn.
Es ist nicht viel komplizierter, die T-Verteilung zu verwenden als die Z-Verteilung (Sie müssen nur sicherstellen, dass Sie den richtigen Wert für die Freiheitsgrade verwenden), und der Grund für die Entwicklung der T-Verteilung war zu ermöglichen die Analyse kleiner Proben. Dies ist nur eine der weniger offensichtlichen Möglichkeiten, wie Usability-Experten von der Wissenschaft und Praxis des Bierbrauens profitieren. Statistiker betrachten Gossetts Veröffentlichung des Student-t-Tests als wegweisendes Ereignis (Box, 1984; Cowles, 1989; Stigler, 1999). In einem Brief an Ronald A. Fisher (einen der Väter der modernen Statistik), der eine frühe Kopie der T-Tabellen enthielt, schrieb Gossett: „Sie sind wahrscheinlich der einzige Mann, der sie jemals benutzen wird“ (Box, 1978). Gossett hat viele Dinge richtig verstanden, aber das hat er sicherlich falsch verstanden.
VERWEISE
Box, GEP (1984). Die Bedeutung der Praxis für die Entwicklung der Statistik. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, das Leben eines Wissenschaftlers. New York, NY: John Wiley.
Bradley, JV (1978). Robustheit? British Journal of Mathematical and Statistical Psychology, 31, 144-152.
Cohen, J. (1990). Dinge, die ich (bisher) gelernt habe. American Psychologist, 45 (12), 1304 & ndash; 1312.
Cowles, M. (1989). Statistik in der Psychologie: Eine historische Perspektive. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). Die Dame, die Tee probiert: Wie die Statistik die Wissenschaft im 20. Jahrhundert revolutionierte. New York, NY: WH Freeman.
Stigler, SM (1999). Statistik auf dem Tisch: Die Geschichte der statistischen Konzepte und Methoden. Cambridge, MA: Harvard University Press.