Zu wissen , wie Sortierer unterscheiden ist gut, aber immer noch nicht , dass Ihnen nicht sagen , was die Noten kompensieren zu . Stellen Sie sich der Einfachheit halber nur zwei Sortierer vor. Selbst wenn wir zu dem Schluss kommen, dass Grader 1 durchweg 5 Punkte großzügiger ist als Grader 2, sagt das nichts darüber aus, was Sie mit zwei Schülern machen sollen, die jeweils die Note 70 hatten, einer nach Grader 1 und einer nach Grader 2. Sagen wir, dass Grader 2 War es ein harter Marker, und erhöhen Sie diese 70 auf 75, während Sie die 70 von Grader 1 unverändert lassen? Oder gehen wir davon aus, dass Grader 1 übermäßig nachsichtig war, seinen Schüler auf 65 Punkte zurückstieß und die 70er von Grader 2 unverändert ließ? Gehen wir auf halbem Weg Kompromisse ein - auf Ihren Fall bezogen auf einen Durchschnitt der 11 Schulabgänger? Auf die absoluten Noten kommt es an, daher reicht es nicht aus, die relative Großzügigkeit zu kennen.
Ihre Schlussfolgerung kann davon abhängen, wie "objektiv" Sie die endgültige absolute Note finden sollten. Ein mentales Modell wäre, jedem Schüler eine "richtige" Note vorzuschlagen - diejenige, die der leitende Assessor vergeben würde, wenn er Zeit hätte, jede Arbeit einzeln zu bewerten - zu der die beobachteten Noten Näherungswerte sind. In diesem Modell müssen beobachtete Noten für ihre Benotung kompensiert werden, um sie so nah wie möglich an ihre unbeobachtete "wahre" Note heranzuführen. Ein anderes Modell könnte sein, dass jede Bewertung subjektiv ist und wir versuchen, jede beobachtete Note in die Note umzuwandeln, die wir vorhergesagt haben, wenn alle Bewerter das gleiche Papier in Betracht gezogen und eine Art Kompromiss oder Durchschnittsnote dafür erreicht hätten. Ich finde das zweite Modell als Lösung weniger überzeugend, auch wenn die Einräumung von Subjektivität realistischer ist. In einem Bildungsumfeld gibt es normalerweise jemanden, der letztendlich die Verantwortung für die Bewertung trägt, um sicherzustellen, dass die Schüler "die Note erhalten, die sie verdienen", aber diese Führungsrolle hat im Wesentlichen die Verantwortung gegenüber denjenigen Gradern freigesprochen, von denen wir bereits wissen, dass sie nicht einverstanden sind. Ab hier gehe ich davon ausist eine "richtige" Note, die wir schätzen wollen, aber dies ist eine anfechtbare Aussage und passt möglicherweise nicht zu Ihren Umständen.
Angenommen, die Schüler A, B, C und D, die sich alle in derselben Kohorte befinden, "sollten" mit 75, 80, 85 bzw. 90 bewertet werden, aber ihre großzügige Benotung bewertet sie durchweg mit 5 zu hoch. Wir beobachten 80, 85, 90 und 95 und sollten 5 subtrahieren, aber es ist problematisch, die zu subtrahierende Zahl zu finden. Dies kann nicht durch Vergleichen der Ergebnisse zwischen Kohorten erreicht werden, da wir davon ausgehen, dass Kohorten unterschiedliche durchschnittliche Fähigkeiten aufweisen. Eine Möglichkeit besteht darin, die Multiple-Choice-Testergebnisse zu verwenden, um die korrekten Ergebnisse für die zweite Aufgabe vorherzusagen, und diese dann zu verwenden, um die Abweichungen zwischen den einzelnen Sortierern und den korrekten Noten zu bewerten. Diese Vorhersage ist jedoch nicht trivial. Wenn Sie einen unterschiedlichen Mittelwert und eine unterschiedliche Standardabweichung zwischen den beiden Bewertungen erwarten, können Sie nicht einfach davon ausgehen, dass die zweite Bewertungsstufe mit der ersten übereinstimmt.
Außerdem unterscheiden sich die Studierenden in der relativen Eignung für Multiple-Choice- und schriftliche Bewertungen. Sie können dies als eine Art Zufallseffekt behandeln, der Bestandteil der "beobachteten" und "wahren" Noten des Schülers ist, jedoch nicht durch die "vorhergesagte" Note erfasst wird. Wenn sich Kohorten systematisch unterscheiden und die Schüler einer Kohorte in der Regel ähnlich sind, sollten wir nicht erwarten, dass dieser Effekt innerhalb jeder Kohorte auf Null gemittelt wird. Wenn die beobachteten Noten einer Kohorte im Durchschnitt +5 gegenüber den vorhergesagten Noten liegen, ist dies unmöglichum festzustellen, ob dies auf eine großzügige Benotung zurückzuführen ist, eine Kohorte, die für eine schriftliche Beurteilung besonders gut geeignet ist, als Multiple-Choice oder eine Kombination aus beiden. Im Extremfall kann die Kohorte bei der zweiten Bewertung sogar eine geringere Eignung aufweisen, was jedoch von einem sehr großzügigen Bewerter mehr als ausgeglichen wurde - oder umgekehrt. Sie können das nicht auseinander brechen. Es ist verwirrt.
Ich bezweifle auch die Angemessenheit eines solchen einfachen additiven Modells für Ihre Daten. Die Grader unterscheiden sich möglicherweise nicht nur durch die Ortsverschiebung, sondern auch durch die Streuung vom Hauptassessor. Da Kohorten jedoch wahrscheinlich in ihrer Homogenität variieren, können Sie die Streuung der beobachteten Noten in jeder Kohorte nicht einfach überprüfen, um dies zu erkennen. Darüber hinaus weist der Großteil der Verteilung hohe Punktzahlen auf, die ziemlich nahe am theoretischen Maximum von 100 liegen. Ich würde mir vorstellen, dass dies zu einer Nichtlinearität aufgrund der Komprimierung in der Nähe des Maximums führt - ein sehr großzügiger Grader kann A-, B-, C- und D-Noten wie geben 85, 90, 94, 97. Dies ist schwieriger umzukehren, als nur eine Konstante zu subtrahieren. Schlimmer noch, Sie könnten "Clipping" sehen - ein extrem großzügiger Grader kann sie mit 90, 95, 100, 100 einstufen. Dies ist unmöglich Informationen über die relative Leistung von C und D gehen unwiederbringlich verloren.
Ihre Grader verhalten sich sehr unterschiedlich. Sind Sie sicher, dass sie sich eher in ihrer generellen Großzügigkeit als in ihrer Großzügigkeit in verschiedenen Bestandteilen der Bewertung unterscheiden? Dies könnte eine Überprüfung wert sein, da es zu verschiedenen Komplikationen kommen kann - z. B. kann die beobachtete Note für B schlechter sein als die für A, obwohl B 5 Punkte "besser" ist, selbst wenn die vom Grader für jede Komponente zugewiesenen Noten eine monoton ansteigende Funktion sind des Hauptassessors! Angenommen, die Bewertung wird zwischen Q1 (A sollte 30/50, B 45/50 erzielen) und Q2 (A sollte 45/50, B 35/50 erzielen) aufgeteilt. Stellen Sie sich vor, der Grader ist in Q1 sehr nachsichtig (beobachtete Noten: A 40/50, B 50/50), aber in Q2 hart (beobachtet: A 42/50, 30/50), dann beobachten wir Gesamtwerte von 82 für A und 80 für B. Wenn Sie Komponentenbewertungen berücksichtigen müssen,
Dies ist wahrscheinlich eher ein ausführlicher Kommentar als eine Antwort, in dem Sinne, dass er keine bestimmte Lösung innerhalb der ursprünglichen Grenzen Ihres Problems vorschlägt. Aber wenn Ihre Sortierer bereits ungefähr 55 Papiere pro Stück verarbeiten, ist es dann für sie so schlimm, sich fünf oder zehn weitere Papiere für Kalibrierungszwecke ansehen zu müssen? Sie haben bereits eine gute Vorstellung von den Fähigkeiten der Schüler und können daher eine Auswahl von Arbeiten aus dem gesamten Notenbereich auswählen. Sie könnten dann abschätzen, ob Sie die Großzügigkeit der Grader über den gesamten Test oder in jeder Komponente ausgleichen müssen, und ob Sie dies nur durch Addieren / Subtrahieren einer Konstanten oder durch etwas Feineres wie Interpolation tun müssen (z. B. wenn Sie sich Sorgen machen, Linearität nahe 100). Aber ein warnendes Wort zur Interpolation: Nehmen wir an, der Lead Assessor markiert fünf Beispielpapiere mit 70, 75, 80, 85 und 90, Während ein Sortierer sie als 80, 88, 84, 93 und 96 kennzeichnet, gibt es einige Meinungsverschiedenheiten über die Reihenfolge. Wahrscheinlich möchten Sie die beobachteten Noten von 96 bis 100 auf das Intervall 90 bis 100 und die beobachteten Noten von 93 bis 96 auf das Intervall 85 bis 90 abbilden. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten. Vielleicht sollten beobachtete Noten von 84 bis 93 dem Intervall 75 bis 85 zugeordnet werden? Eine Alternative wäre eine (möglicherweise polynomielle) Regression, um eine Formel für "vorhergesagte wahre Note" aus "beobachteter Note" zu erhalten.