Wie ist der Mittelwertvergleich aus verschiedenen Stichprobengrößen zu interpretieren?

Nehmen Sie den Fall von Buchbewertungen auf einer Website. Buch A wird von 10.000 Personen mit einer durchschnittlichen Bewertung von 4,25 und der Varianz bewertet . In ähnlicher Weise wird Buch B von 100 Personen bewertet und hat eine Bewertung von 4,5 mit . $\sigma = 0.5$ $\sigma = 0.25$

Aufgrund des großen Stichprobenumfangs von Buch A hat sich der Mittelwert auf 4,25 stabilisiert. Für 100 Personen kann es sein, dass die durchschnittliche Bewertung auf 4 oder 4,25 sinkt, wenn mehr Personen Buch B lesen.

Wie ist der Mittelwertvergleich aus verschiedenen Stichproben zu interpretieren und was sind die besten Schlussfolgerungen, die man ziehen kann / sollte?

Zum Beispiel - können wir wirklich sagen, dass Buch B besser ist als Buch A.

t-test mean sample-size

— PhD
quelle

Interessieren Sie sich speziell für den Ratingkontext?

— Jeromy Anglim

@ JeromyAnglim - Hmmm ... wahrscheinlich. Nicht sicher. Das ist das häufigste Beispiel. Was hattest du im Sinn?

— PhD

Siehe meine Antwort zu Bayes'schen Bewertungssystemen weiter unten. Angewandte Bewertungskontexte haben typischerweise Hunderte oder Tausende von Objekten, die bewertet werden, und das Ziel ist oft, anhand der verfügbaren Informationen die beste Schätzung der Bewertung für das Objekt zu bilden. Dies unterscheidet sich stark von einem einfachen Zweigruppenvergleich, wie Sie vielleicht in einem medizinischen Experiment mit zwei Gruppen finden.

— Jeromy Anglim

Antworten:

$N$ $n$

Um meinen Standpunkt zur Leistung zu verdeutlichen, ist hier eine sehr einfache Simulation, die für R geschrieben wurde:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

$N=100$ $n_1=50$ $n_2=50$ $n_1=75$ $n_2=25$ $n_1=90$ $n_2=10$ . Es ist ferner zu beachten, dass der standardisierte Mittelwertdifferenz- / Datenerzeugungsprozess in allen Fällen derselbe war. Während der Test in 70% der Fälle für die 50-50-Probe "signifikant" war, betrug die Leistung 56% bei 75-25 und nur 33% bei Gruppengrößen von 90-10.

Ich denke analog dazu. Wenn Sie die Fläche eines Rechtecks kennen möchten und der Umfang festgelegt ist, wird die Fläche maximiert, wenn Länge und Breite gleich sind (dh wenn das Rechteck ein Quadrat ist ). Andererseits schrumpft der Bereich, wenn Länge und Breite auseinander gehen (wenn das Rechteck länglich wird).

— gung - Wiedereinsetzung von Monica
quelle

Leistung wird maximiert? Ich bin mir nicht ganz sicher, ob ich das verstehe. Könnten Sie bitte, wenn möglich, ein Beispiel nennen?

— PhD

Der Grund, warum der t-Test ungleiche Stichprobengrößen verarbeiten kann, besteht darin, dass er den Standardfehler der Schätzungen der Mittelwerte für jede Gruppe berücksichtigt. Dies ist die Standardabweichung der Gruppenverteilung geteilt durch die Quadratwurzel der Stichprobengröße der Gruppe. Die Gruppe mit der viel größeren Stichprobe weist den kleineren Standardfehler auf, wenn die Populationsstandardabweichungen gleich oder nahezu gleich sind.

— Michael Chernick

@gung - Ich bin nicht sicher, ob ich wirklich weiß, in welcher 'Sprache' diese Simulation geschrieben ist. Ich rate 'R'? und ich versuche immer noch, es zu entziffern :)

— PhD

Der Code ist für R. Ich habe ihn kommentiert, um die Verfolgung zu vereinfachen. Sie können es einfach kopieren und in R einfügen und selbst ausführen, wenn Sie R haben. Die set.seed()Funktion stellt sicher, dass Sie die gleiche Ausgabe erhalten. Lassen Sie mich wissen, ob es immer noch zu schwierig ist, zu folgen.

— gung - Wiedereinsetzung von Monica

N = n_{1} + n_{2}

$N=n_1+n_2$

n_{1} \times n_{2}

$n_1\times n_2$

n_{1} n_{2}

$n_1n_2$

Zusätzlich zu der Antwort von @gung, die Sie auf den t-Test verweist, scheint es, dass Sie an Bayes'schen Bewertungssystemen interessiert sind (z. B. hier ist eine Diskussion ). Websites können solche Systeme verwenden, um Ordnungselemente zu ordnen, die sich in der Anzahl der erhaltenen Stimmen unterscheiden. Im Wesentlichen funktionieren solche Systeme, indem sie eine Bewertung zuweisen, die sich aus der mittleren Bewertung aller Elemente plus dem Mittelwert der Stichprobe von Bewertungen für das spezifische Objekt zusammensetzt. Wenn die Anzahl der Bewertungen zunimmt, nimmt das dem Mittelwert für das Objekt zugewiesene Gewicht und das dem Mittelwert für alle Artikel zugewiesene Gewicht ab. Vielleicht schauen Sie sich Bayesian Durchschnittswerte .

Natürlich können die Dinge viel komplexer werden, wenn Sie sich mit einer Vielzahl von Themen befassen, z. B. Abstimmungsbetrug, Änderungen im Laufe der Zeit usw.

— Jeromy Anglim
quelle

Süss. Habe nie davon gehört. Ich werde es auf jeden Fall untersuchen. Vielleicht ist es das, wonach ich immerhin bin :)

— PhD