Warum werden nicht alle Tests über die Artikelanalyse / Antworttheorie bewertet?

8

Gibt es einen statistischen Grund, warum die Artikelanalyse / Antworttheorie nicht weiter verbreitet ist? Wenn ein Lehrer beispielsweise einen Multiple-Choice-Test mit 25 Fragen durchführt und feststellt, dass 10 Fragen von allen richtig beantwortet wurden, wurden 10 Fragen von einem wirklich geringen Anteil (z. B. 10%) beantwortet und die restlichen 5 von etwa 50% der Personen beantwortet . Ist es nicht sinnvoll, die Punktzahlen neu zu gewichten, damit schwierige Fragen stärker gewichtet werden?

In der realen Welt werden bei Tests fast immer alle Fragen gleich gewichtet. Warum?

Unter dem folgenden Link werden Diskriminierungsindizes und andere Schwierigkeitsgrade für die Auswahl der besten Fragen erläutert: http://fcit.usf.edu/assessment/selected/responsec.html

Es scheint jedoch, dass die Methode zur Ermittlung des Diskriminierungsindex von Fragen nur zukunftsgerichtet angewendet wird (z. B. wenn eine Frage nicht gut diskriminiert, werfen Sie sie weg). Warum werden Tests für die aktuelle Population nicht neu gewichtet?

teaching psychometrics latent-variable

— d_a_c321
quelle

7

(Sie haben gefragt, ob es einen statistischen Grund gibt: Ich bezweifle es, aber ich vermute andere Gründe.) Würde es Schreie geben, den Torpfosten zu bewegen? Normalerweise möchten die Schüler bei einem Test wissen, wie viel jeder Gegenstand wert ist. Sie könnten sich zu Recht beschweren, wenn sie zum Beispiel sehen, dass einige ihrer hart erarbeiteten Antworten nicht viel zählten.

Viele Lehrer und Professoren verwenden unsystematische, subjektive Kriterien für die Bewertung von Tests. Aber diejenigen, die Systeme verwenden, sind wahrscheinlich vorsichtig, wenn es darum geht, diese Systeme für bestimmte Kritik zu öffnen - etwas, das sie weitgehend vermeiden können, wenn sie sich hinter subjektiveren Ansätzen verstecken. Dies könnte erklären, warum Artikelanalyse und IRT nicht häufiger verwendet werden als sie.

— rolando2
quelle

1

+1, ich gehe davon aus, dass viele Lehrer und Professoren auch mit IRT nicht vertraut sind.

— Gung - Reinstate Monica

Absolut! Ein weiterer nicht statistischer Grund. Ich finde, dass die Lehrerausbildung in diesem Land so ist, dass viele, die unterrichten, nur wenig oder gar keine Ausbildung in Bewertung erhalten. Und dann gibt es Forscher und Testdesigner, die in Assessment geschult sind und wenig oder gar keine Ausbildung in Unterrichtsmethoden haben.

— Rolando2

1

@ rolando2 - Ich schäme mich als Ökonom, dass mir der Gedanke an Ex-ante- oder Testanreize nicht in den Sinn gekommen ist. Wenn Testteilnehmer mit einem sich bewegenden Ziel zu tun haben und nicht wissen, wie sie ihre Zeit und Mühe rational mit der Beantwortung jeder Frage verbringen sollen, könnte dies wahrscheinlich einige wirklich perverse Auswirkungen haben!

— d_a_c321

Ich sehe, wie es sie verärgern könnte, aber an welche "perversen" Effekte denken Sie?

— Rolando2

6

Ein erstes Argument hat mit Transparenz zu tun. @ rolando2 hat diesen Punkt bereits gemacht. Die Schüler möchten im Voraus wissen, wie viel jeder Gegenstand wert ist.

Ein zweites Argument ist, dass die Gewichte nicht nur den Schwierigkeitsgrad einer Frage widerspiegeln, sondern auch den Grad der Wichtigkeit, den der Ausbilder einer Frage beimisst. In der Tat ist das Ziel einer Prüfung das Testen und Zertifizieren von Kenntnissen und Kompetenzen. Daher müssen die Gewichte, die verschiedenen Fragen und Gegenständen zugeordnet werden, vom Lehrer im Voraus festgelegt werden. Sie sollten nicht vergessen, dass "alle Modelle falsch sind und nur einige nützlich sind". In diesem Fall kann man einige Zweifel an der Nützlichkeit haben.

Vor diesem Hintergrund denke ich, dass eine (mehr oder weniger ausgefallene) statistische Analyse für die Analyse der Ergebnisse nachträglich erfolgen könnte. Dort kann es einige interessante Einblicke geben. Ob dies getan wird und in welchem Maße es getan wird, hängt sicherlich von den statistischen Fähigkeiten des Lehrers ab.

— Gemeinschaft
quelle

2

Absolut! Als Ausbilder suche ich nicht nach einer relativen Rangfolge der Schüler, sondern nach einem absoluten Maß für Verständnis und Fähigkeiten. Ich wäre vollkommen zufrieden (sogar erfreut), wenn sich herausstellen würde, dass jeder in der Klasse ein 100% iges Verständnis für das Fach hat, das ich unterrichte. Daher werden die Gewichte für Fragen so ausgewählt, dass sie ihre Bedeutung widerspiegeln und wie viel Gewicht sie für eine Gesamtbewertung des Verständnisses des Themas haben sollten.

— DW

2

Ich wollte eine Klarstellung bezüglich der ursprünglichen Frage machen. In der Item-Response-Theorie zeigt die Unterscheidung (dh Item-Steigung oder Faktorbelastung) keine Schwierigkeit an. Die Verwendung eines Modells, das eine unterschiedliche Unterscheidung für jeden Gegenstand ermöglicht, gewichtet sie effektiv nach ihrer geschätzten Korrelation mit der latenten Variablen, nicht nach ihrer Schwierigkeit.

Mit anderen Worten, ein schwierigerer Gegenstand könnte gewichtet werden, wenn er als ziemlich unkorreliert mit der interessierenden Dimension eingeschätzt wird, und umgekehrt. Ein einfacher Gegenstand könnte gewichtet werden, wenn er als stark korreliert eingeschätzt wird.

Ich stimme früheren Antworten zu, die auf (a) das mangelnde Bewusstsein der Praktiker für Methoden zur Beantwortung von Gegenständen hinweisen, (b) die Tatsache, dass die Verwendung dieser Modelle ein gewisses technisches Fachwissen erfordert, selbst wenn man sich ihrer Vorteile bewusst ist (insbesondere der Fähigkeit, die zu bewerten) Anpassung des Messmodells), (c) die Erwartungen des Schülers gemäß @ rolando2 und nicht zuletzt (d) die theoretischen Überlegungen, die Ausbilder möglicherweise haben, um verschiedene Gegenstände unterschiedlich zu gewichten. Ich wollte jedoch Folgendes erwähnen:

Nicht alle Modelle der Item-Response-Theorie erlauben eine Variation des Diskriminierungsparameters, wobei das Rasch-Modell wahrscheinlich das bekannteste Beispiel für ein Modell ist, bei dem die Diskriminierungen zwischen Items konstant gehalten werden. In der Rasch-Modellfamilie ist die Summenbewertung eine ausreichende Statistik für die Elementantwortbewertung, daher gibt es keinen Unterschied in der Reihenfolge der Befragten, und die einzigen praktischen Unterschiede werden erkannt, wenn die "Abstände" zwischen der Bewertung Gruppen werden berücksichtigt.
Es gibt Forscher, die die Verwendung der klassischen Testtheorie (die auf der traditionellen Verwendung von Summenwerten oder Durchschnittskorrekturen beruht) sowohl aus theoretischen als auch aus empirischen Gründen verteidigen. Das vielleicht am häufigsten verwendete Argument ist die Tatsache, dass die nach der Item-Response-Theorie generierten Scores den nach der klassischen Testtheorie erstellten tatsächlich sehr ähnlich sind. Siehe zum Beispiel die Arbeit von Xu & Stone (2011), Verwendung von IRT-Merkmalsschätzungen im Vergleich zu summierten Ergebnissen bei der Vorhersage von Ergebnissen , pädagogischen und psychologischen Messungen , wo sie Korrelationen über 0,97 unter einer Vielzahl von Bedingungen melden.

— David
quelle

(+1) Der erste Absatz ist sehr gut formuliert. Über Punkt 2 habe ich diesen Artikel irgendwie verpasst, also danke fürs Teilen! Bemerkenswerterweise würden Korrelationen von vergleichbarer Größe mit herkömmlichen Faktoranalysemodellen beobachtet (bei denen Belastungen den Unterscheidungsparameter nachahmen - im CTT-Rahmen wäre dies der Punkt-Biserial-Korrelationskoeffizient), vorausgesetzt, die Schwierigkeiten der Gegenstände sind gleichmäßig auf das latente Merkmal verteilt ( dh keine zu schwierigen oder zu einfachen Gegenstände).

— Chl

1

Sollte die Punktzahl eines Schülers nicht auf dem basieren, was er im Test weiß und beantwortet, und nicht auf dem, was alle anderen in der Klasse tun?

Wenn Sie den gleichen Test 2 verschiedene Jahre gegeben haben und 2 Schüler (jeweils 1) hatten, die genau die gleichen Fragen richtig beantworteten (ohne zu schummeln), ist es wirklich sinnvoll, dass sie je nach Anzahl der anderen Schüler unterschiedliche Noten erhalten würden ihre Klasse studiert?

Und ich persönlich möchte keinen Schülern die Motivation geben, ihre Klassenkameraden zu sabatieren, anstatt das Material selbst zu lernen.

Das IRT kann einen Einblick in den Test geben, aber ich würde ihn nicht verwenden, um die Ergebnisse aktiv zu gewichten.

Wenn ich an Gewichte denke, denke ich, dass jemand mehr Punkte bekommen sollte, um eine schwierige Frage richtig zu stellen, aber er sollte mehr Punkte verlieren, um eine einfache Frage falsch zu stellen. Kombinieren Sie diese und Sie erhalten immer noch die gleiche Gewichtung. Oder ich versuche tatsächlich, basierend auf der Zeit oder dem Aufwand, der für die Beantwortung der Frage erforderlich ist, zu gewichten, sodass jemand, der die Fragen in einer anderen Reihenfolge beantwortet, keinen Vorteil bei einem zeitgesteuerten Test hat.

— Greg Snow
quelle

Große Testorganisationen, die IRT verwenden, müssen sich auch um die Konsistenz zwischen den Testangeboten sorgen. Die Konsistenz der latenten Variablen ist wichtig, aber erreichbar.

— D Coetzee