Wie wird die Spearman-Brown-Prophezeiungsformel von Fragen unterschiedlicher Schwierigkeiten beeinflusst?

Wie werden die Ergebnisse der Spearman-Brown-Prophezeiungsformel durch Testfragen mit unterschiedlichen Schwierigkeiten oder Bewertern, die leicht oder schwer zu bewerten sind, beeinflusst? Ein angesehener Text besagt, dass der SB betroffen ist, gibt jedoch keine Details an. (Siehe Zitat unten.)

Guion, R. M (2011). Bewertung, Messung und Vorhersage von Personalentscheidungen, 2. Auflage. S. 477

"Die Zuverlässigkeit kann erhöht werden, indem die Bewerter unter Verwendung der Spearman-Brown-Gleichung zusammengefasst werden. ... Wenn die Zuverlässigkeit einer einzelnen Bewertung 0,50 beträgt, beträgt die Zuverlässigkeit von zwei, vier oder sechs parallelen Bewertungen ungefähr 0,67, 0,80 bzw. .86 "(Houston, Raymond & Svec, 1991, S. 409). Ich mag dieses Zitat, weil das Wort ungefähr erkennt, dass statistische Schätzungen "im Durchschnitt" Aussagen darüber sind, was zu erwarten ist, wenn alles wie angenommen verläuft. Darüber hinaus ist das operative Wort parallel. Die Mittelung von Bewertungen (oder die Verwendung von Spearman-Brown), wenn ein Bewerter beispielsweise systematisch nachsichtig ist, passt einfach nicht zur Annahme. Wenn Aufsätze jeweils von zwei Bewertern bewertet werden, von denen einer milder ist als der andere, besteht das Problem darin, zwei Multiple-Choice-Tests mit ungleichem Schwierigkeitsgrad (nicht parallele Formen) zu verwenden. Scores, die auf unterschiedlichen (ungleichmäßigen) Testformen basieren, sind nicht vergleichbar. So ist es auch mit dem Mischen milder und schwieriger Bewerter; Die Zuverlässigkeit der gepoolten Bewertungen wird durch die Spearman-Brown-Gleichung der klassischen Testtheorie falsch geschätzt. Schlimmer ist es, wenn jeder Richter ein Konstrukt etwas anders definiert. "

reliability psychometrics

— Joel W.
quelle

Ich denke, das Problem bei der Suche nach einer glaubwürdigen Quelle besteht darin, dass die Antwort aus der Testtheorie stammt. Es ist offensichtlich, ob Sie die zugrunde liegende Theorie und insbesondere die Einschränkungen unserer Fähigkeit zur Beurteilung der Zuverlässigkeit verstehen. Deshalb macht sich Guion nicht die Mühe, es zu erklären. Aber trotzdem viel Glück bei Ihrer Suche - vielleicht kennt jemand irgendwo eine bessere Erklärung.

— Jeremy Miles

Antworten:

Obwohl ich mich ein wenig verlegen fühle, wenn ich sowohl einem "angesehenen Text" als auch einem anderen Lebenslaufbenutzer widerspreche, scheint es mir, dass die Spearman-Brown-Formel nicht durch Elemente mit unterschiedlichen Schwierigkeitsgraden beeinflusst wird. Natürlich wird die Spearman-Brown-Formel normalerweise unter der Annahme abgeleitet, dass wir parallele Elemente haben, was (unter anderem) impliziert, dass die Elemente die gleichen Schwierigkeiten haben. Es stellt sich jedoch heraus, dass diese Annahme nicht notwendig ist. Es kann gelockert werden, um ungleiche Schwierigkeiten zuzulassen, und die Spearman-Brown-Formel bleibt bestehen. Ich demonstriere dies unten.

Es sei daran erinnert, dass in der klassischen Testtheorie angenommen wird, dass eine Messung die Summe einer "True Score" -Komponente und einer Fehlerkomponente ist, wobei und korreliert sind. Bei parallelen Elementen wird davon ausgegangen, dass alle Elemente die gleichen wahren Bewertungen aufweisen und sich nur in ihren Fehlerkomponenten unterscheiden, obwohl davon ausgegangen wird, dass diese die gleiche Varianz aufweisen. In Symbolen, für jedes Paar von Elementen und $X$ $T$ $E$

X = T + E,

$X = T + E,$

T

$T$

E

$E$

X

$X$

X^{'}

$X'$

T = T^{'} var (E) = var (E^{'}) .

$T=T' \\\textrm{var}(E)=\textrm{var}(E').$ Lassen Sie uns sehen, was passiert, wenn wir die erste Annahme lockern, sodass sich die Elemente in ihren Schwierigkeiten unterscheiden können, und dann die Zuverlässigkeit einer Gesamttestpunktzahl unter diesen neuen Annahmen ableiten. Nehmen Sie insbesondere an, dass sich die wahren Bewertungen möglicherweise um eine additive Konstante unterscheiden, die Fehler jedoch immer noch dieselbe Varianz aufweisen. In Symbolen ist Schwierigkeitsunterschiede werden durch die additive Konstante erfasst. Wenn zum Beispiel , sind die Punktzahlen auf tendenziell höher als die Punktzahlen auf , so dass "einfacher" als . Wir könnten diese im Wesentlichen parallel nennen

T = T^{'} + c^{'} var (E) = var (E^{'}) .

$T=T' + c' \\\textrm{var}(E)=\textrm{var}(E').$

c^{'} > 0

$c'>0$

X

$X$

X^{'}

$X'$

X

$X$

X^{'}

$X'$ Elemente, in Analogie zur Annahme einer "wesentlichen Tau-Äquivalenz", die das Tau-Äquivalent-Modell auf ähnliche Weise entspannt.

Nun soll die Zuverlässigkeit einer Testform solcher Elemente abgeleitet werden. Betrachten Sie einen Test, der aus Wesentlichen parallelen Elementen besteht, deren Summe die Testbewertung ergibt. Die Zuverlässigkeit ist per Definition das Verhältnis der tatsächlichen Bewertungsvarianz zur beobachteten Bewertungsvarianz. Für die Zuverlässigkeit der einzelnen Elemente folgt aus der Definition der wesentlichen Parallelität, dass sie dieselbe Zuverlässigkeit haben, die wir mit mit ist die wahre Score-Varianz und die Fehlervarianz. Für die Zuverlässigkeit der Gesamttestpunktzahl untersuchen wir zunächst die Varianz der Gesamttestpunktzahl $k$ $\rho = \sigma^2_T/(\sigma^2_T+\sigma^2_E)$ $\sigma^2_T$ $\sigma^2_E$

\begin{aligned} var (\sum_{i = 1}^{k} T_{i} + E_{i}) & = var (\sum_{i = 1}^{k} T + c_{i} + E_{i}) \\ = k^{2} σ_{T}^{2} + k σ_{E}^{2}, \end{aligned}

$\begin{aligned} \textrm{var}(\sum_{i=1}^kT_i + E_i) &= \textrm{var}(\sum_{i=1}^kT + c_i + E_i) \\ &= k^2\sigma^2_T + k\sigma^2_E, \end{aligned}$ wobei (nicht tiefgestellt ) jeder beliebiger wahre Wert ist , dass alle wahren Scores , um die Einzelteile können über ihre konstanten Bedingungen zu verschoben werden, ist die wahre Score-Varianz und ist die Fehlervarianz. Beachten Sie, dass die konstanten Terme ausfallen! Das ist der Schlüssel. Dann ist die Zuverlässigkeit der Gesamttestpunktzahl

T

$T$

σ_{T}^{2}

$\sigma^2_T$

σ_{E}^{2}

$\sigma^2_E$

\begin{aligned} \frac{k^{2} σ_{T}^{2}}{k^{2} σ_{T}^{2} + k σ_{E}^{2}} & = \frac{k σ_{T}^{2}}{k σ_{T}^{2} + σ_{X}^{2} - σ_{T}^{2}} \\ = \frac{k ρ}{1 + (k - 1) ρ}, \end{aligned}

$\begin{aligned} \frac{k^2\sigma^2_T}{k^2\sigma^2_T + k\sigma^2_E} &= \frac{k\sigma^2_T}{k\sigma^2_T + \sigma^2_X - \sigma^2_T} \\&= \frac{k\rho}{1+(k-1)\rho}, \end{aligned}$ Das ist nur die klassische Spearman-Brown-Formel, unverändert. Dies zeigt, dass die Spearman-Brown-Formel auch dann gilt, wenn die "Schwierigkeit" der Elemente, definiert als ihre Durchschnittswerte, variiert wird.

@JeremyMiles wirft einige interessante und wichtige Punkte darüber auf, was passieren kann, wenn wir die Testlänge "in der realen Welt" erhöhen, aber zumindest gemäß den idealisierten Annahmen der klassischen Testtheorie spielen Variationen in der Schwierigkeit des Gegenstands keine Rolle für die Zuverlässigkeit von a Testform (im krassen Gegensatz zu den Annahmen der modernen Item-Response-Theorie!). Dieselbe grundlegende Argumentation ist auch der Grund, warum wir normalerweise eher von einer wesentlichen Tau-Äquivalenz als von einer Tau-Äquivalenz sprechen , da die meisten wichtigen Ergebnisse für den milderen Fall gelten, in dem sich die Schwierigkeiten der Gegenstände (dh die Mittelwerte) unterscheiden können.

— Jake Westfall
quelle

Ja, guter Punkt. Was ich geschrieben habe, muss nicht unbedingt gelten.

— Jeremy Miles

Es ist nicht leicht zu sagen.

Erstens geht der Spearman-Brown davon aus, dass Testobjekte (oder Bewerter) zufällig aus einer Population von Testobjekten (oder Bewertern) ausgewählt werden. Dies trifft insbesondere bei Tests nie wirklich zu, da es schwierig ist, mehr Elemente zusammenzustellen, und es wahrscheinlich ist, dass Sie zunächst die besseren Elemente verwenden - dann werden Sie feststellen, dass der Test länger sein muss, also werden Sie "Kratzen Sie das Fass" für Gegenstände.

Zweitens unterscheiden sich die Zuverlässigkeit der Elemente, und die Zuverlässigkeit hängt nicht unbedingt mit der Schwierigkeit zusammen (wenn dies hilfreich ist, denken Sie an die Steigung und den Achsenabschnitt der Elementkennlinie in der Elementantworttheorie). Bei der Berechnung der Zuverlässigkeit (z. B. Cronbachs Alpha, eine Form der Korrelation innerhalb der Klasse) wird jedoch davon ausgegangen, dass alle Zuverlässigkeitswerte gleich sind (sie setzen ein wesentliches tau-äquivalentes Messmodell voraus - das heißt, dass alle nicht standardisierten Zuverlässigkeitswerte der einzelnen Elemente alle gleich sind gleich). Das ist mit ziemlicher Sicherheit falsch. Das Hinzufügen von Elementen kann steigen oder fallen. Es kommt auf die Gegenstände an.

Hier ist eine andere Art, darüber nachzudenken. Ich wähle zufällig eine Stichprobe aus einer Population aus und berechne den Mittelwert und den Standardfehler des Mittelwerts. Dieser Mittelwert wird ein unvoreingenommener Schätzer des Bevölkerungsmittels sein. Dann vergrößere ich meine Stichprobe - der erwartete Wert des Mittelwerts ist der gleiche, aber es ist unwahrscheinlich, dass er tatsächlich der gleiche ist - er wird mit ziemlicher Sicherheit steigen oder fallen. Genau wie ich erwarte, dass der Standardfehler kleiner wird, aber der Betrag, um den er schrumpft, nicht konsistent ist (und es ist nicht unmöglich, dass der Standardfehler größer wird).

— Jeremy Miles
quelle

Gibt die SB-Formel den minimalen, maximalen oder einen Zwischenwert für die erwartete Zuverlässigkeit an? Warum haben einfache / schwierige Elemente oder Bewerter einen Effekt, da die Zuverlässigkeit anhand von Korrelationen berechnet wird?

— Joel W.

Die SB-Formel gibt die erwartete Zuverlässigkeit an. Es könnte höher oder niedriger sein. Ein Problem besteht darin, dass es mehr als einen Weg gibt, die Zuverlässigkeit zu berechnen, und die von ihnen getroffenen Annahmen selten erfüllt werden. Das Ganze ist irgendwie in der klassischen Testtheorie verwurzelt - die Item-Response-Theorie ist eine modernere Art, über Messung nachzudenken, und es ist oft sinnvoller, zum Beispiel ist die Zuverlässigkeit eines Tests nicht für jeden gleich Person im IRT.

— Jeremy Miles

Wenn eine Frage sehr schwierig oder sehr einfach ist, kann dies die Korrelation beeinflussen. ZB "7 * 11" mag eine verlässliche Frage für die 3. Klasse sein, für Mathematikstudenten jedoch nicht.

— Jeremy Miles

<Der Test muss länger dauern, damit Sie den Lauf nach Gegenständen durchsuchen können. Offensichtlich haben Sie in der Praxis Erfahrungen mit der Zusammenstellung von Tests gesammelt.

— Joel W.