Wie kann ich diese Daten verwenden, um Marker mit unterschiedlicher Großzügigkeit bei der Bewertung von Studienarbeiten zu kalibrieren?


9

12 Lehrer unterrichten 600 Schüler. Die 12 von diesen Lehrern unterrichteten Kohorten haben eine Größe von 40 bis 90 Schülern, und wir erwarten systematische Unterschiede zwischen den Kohorten, da Doktoranden überproportional bestimmten Kohorten zugeordnet wurden. Frühere Erfahrungen haben gezeigt, dass die Absolventen im Durchschnitt erheblich höher sind als die Studenten.

Die Lehrer haben alle Arbeiten in ihrer Kohorte bewertet und ihnen eine Note von 100 zugewiesen.

Jeder Lehrer hat sich auch ein zufällig ausgewähltes Papier von drei anderen Lehrern angesehen und es mit 100 bewertet. Jeder Lehrer hat drei seiner Papiere von einem anderen Lehrer markieren lassen. Auf diese Weise wurden 36 verschiedene Papiere mit einem Kreuz markiert, und ich nenne dies meine Kalibrierungsdaten.

Ich kann auch sehen, wie viele Doktoranden in jeder Kohorte waren.

Meine Fragen sind:

A) Wie kann ich diese Kalibrierungsdaten verwenden, um die Originalmarkierungen anzupassen, um sie fairer zu machen? Insbesondere möchte ich die Auswirkungen übermäßig großzügiger / unanständiger Macher so weit wie möglich auswaschen.

B) Wie angemessen sind meine Kalibrierungsdaten? Ich hatte keine Wahl in den eher begrenzten 36 Datenpunkten der Kalibrierungsdaten, die ich in diesem Kurs erhalten habe, und habe im laufenden Semester keine Möglichkeit mehr zu sammeln. Wenn diese Situation jedoch erneut auftritt, kann ich möglicherweise mehr Kalibrierungsdaten oder verschiedene Arten von Kalibrierungsdaten erfassen.

Diese Frage ist ein Verwandter einer beliebten Frage, die ich gestellt habe: Wie kann ich am besten mit den Auswirkungen von Markern mit unterschiedlichem Maß an Großzügigkeit bei der Bewertung von Studienarbeiten umgehen? . Es ist jedoch ein anderer Kurs und ich bin mir nicht sicher, wie nützlich das Lesen dieser Frage als Hintergrund für diese aktuelle Frage wäre, da das Hauptproblem darin bestand, dass ich keine Kalibrierungsdaten hatte.

Antworten:


6

Dies klingt nach einer großartigen Gelegenheit, ein Empfehlungssystem für die Matrixfaktorisierung zu verwenden . Kurz gesagt funktioniert dies wie folgt:

  • Stellen Sie Ihre Beobachtungen in eine teilweise beobachtete Matrix in der der ist, den dem Schüler .MMijij

  • Angenommen, diese Matrix ist das äußere Produkt einiger latenter Merkmalsvektoren und - das heißt, .tsMij=tisj

  • Löse nach den latenten Merkmalsvektoren, die den quadratischen Rekonstruktionsfehler minimieren (wobei sich die Summe über alle beobachteten Zellen von ).i,j(tisjMij)2M

  • Sie können diesen Erwartungsmaximierungsstil ausführen, indem Sie eine Schätzung für und nach über die kleinsten Quadrate auflösen, diese Schätzung dann für und nach auflösen und bis zur Konvergenz iterieren.tsst

Beachten Sie, dass dies eine ziemlich starke Annahme in Bezug auf die Form der Voreingenommenheit eines Lehrers ist. Insbesondere wenn Sie die latenten Merkmale der Schüler als ihre "wahre Punktzahl" betrachten, multipliziert die Voreingenommenheit eines Lehrers jede wahre Punktzahl mit einem konstanten Betrag (bis Wenn Sie es additiv machen, potenzieren Sie stattdessen die Punktzahlen, die Sie in die Matrix einfügen, und lernen dann die Exponentiale der "wahren Punktzahlen". Mit so wenig Kalibrierungsdaten können Sie wahrscheinlich nicht weit kommen, ohne diese Form stark anzunehmen. Wenn Sie jedoch mehr Daten hätten, könnten Sie eine zweite Dimension latenter Merkmale usw. hinzufügen (dh annehmen und erneut versuchen, den quadratischen Rekonstruktionsfehler zu minimieren).Mij=k=1nsiktkj


BEARBEITEN: Um ein genau definiertes Problem zu haben, benötigen Sie mehr Matrixoperationen als latente Parameter (oder Sie können eine Art Regularisierung verwenden). Das haben Sie hier kaum (Sie haben 636 Beobachtungen und 612 latente Parameter), daher funktioniert die Matrixfaktorisierung möglicherweise nicht besonders gut - ich habe nicht mit ihnen an so kleinen Stichproben gearbeitet, also weiß ich es nicht wirklich.

Wenn sich herausstellt, dass die Kalibrierung nicht ausreicht, um ein gutes Empfehlungsmodell zu verwenden, können Sie versuchen, eine mehrstufige Regression zu aktivieren Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(die Kalibrierungsdaten werden ignoriert), um Schätzungen einer additiven Lehrervorspannung zu extrahieren, und dann zu überprüfen, ob diese Verzerrung mit den von Ihnen angegebenen Kalibrierungsdaten übereinstimmt dauerte. (Wenn möglich, sollten Sie die Heteroskedastizität des Lehrers berücksichtigen.) Dies ist eher ad-hoc, kann jedoch zu weniger schwerwiegenden Problemen bei der Datenerfassung führen.


Um dies zu erweitern, würde ich wahrscheinlich mit einem einfachen Modell mit festen Effekten für Lehrer und potenziell gruppierten robusten Standardfehlern beginnen (siehe diesen Blog-Beitrag für eine Diskussion in R) und dann die festen Effekte für alle Ausreißer vergleichen. In R sollte so etwas lm(score ~ gradStudent + ... + teacherIDes tun.
Iacobus

2

Hier sind einige verwandte Ansätze.

Nehmen Sie den Satz von Papieren, die von mehr als einem Lehrer markiert wurden, da diese die meisten Informationen über Lehrereffekte enthalten und außerhalb dieser Papiere die Lehrer- und Kohorteneffekte verwechselt werden (wenn es eine Möglichkeit gab, den Kohorteneffekt zu erreichen - möglicherweise über GPA oder ein anderer Prädiktor, zum Beispiel, dann könnten Sie alle Daten verwenden, aber es wird die Modelle ziemlich komplizieren).

Beschriften Sie die Schüler und die Marker . Die Menge der Markierungen sei .i=1,2,...nj=1,2,...,myij,i=1,2,...m

Sie müssen zuerst Ihr Modell berücksichtigen, wie der Markereffekt angewendet wird. Ist es additiv? Ist es multiplikativ? Müssen Sie sich über Randeffekte Gedanken machen (z. B. wäre ein additiver oder multiplikativer Effekt auf einer Logit-Skala besser)?

Stellen Sie sich zwei vorgegebene Marker auf zwei Papieren vor und stellen Sie sich vor, der zweite Marker sei großzügiger. Nehmen wir an, der erste Marker würde die Papiere 30 und 60 ergeben. Wird der zweite Marker dazu neigen, beiden eine konstante Anzahl von Markierungen (z. B. 6 Markierungen) hinzuzufügen? Werden sie dazu neigen, konstante Prozentsätze hinzuzufügen (sagen wir 10% zu beiden oder 3 Punkte gegenüber 6 Punkten)? Was ist, wenn der erste Marker 99 gab? - Was würde dann passieren? Was ist mit 0? Was wäre, wenn der zweite Marker weniger großzügig wäre? Was würde bei 99 oder 0 passieren? (aus diesem Grund erwähne ich ein Logit-Modell - man könnte die Markierungen als Anteil der möglichen Markierungen behandeln ( ), und dann könnte der Markereffekt darin bestehen, eine Konstante hinzuzufügen (sagen wir) zum Logit von - dh ).pij=mij/100plog(pij/(1pij)

(Sie werden hier nicht genügend Daten haben, um die Form der Großzügigkeit sowie deren Größe abzuschätzen. Sie müssen ein Modell aus Ihrem Verständnis der Situation auswählen. Sie müssen auch jede Möglichkeit der Interaktion ignorieren; Sie tun dies nicht habe die Daten dafür)

Möglichkeit 1 - einfaches additives Modell. Dies könnte geeignet sein, wenn keine Markierungen wirklich nahe bei 0 oder 100 liegen:

Betrachten Sie ein Modell wieE(yij)=μi+τj

Dies ist im Wesentlichen eine Zwei-Wege-ANOVA. Sie benötigen Einschränkungen, damit Sie eine Abweichungscodierung einrichten / das Modell so einrichten können, dass der Markereffekt 0 ist, oder Sie können ein Modell einrichten, bei dem ein Marker die Grundlinie ist (dessen Effekt 0 ist und dessen Markierungen Sie sind wird versuchen, jeden anderen Marker in Richtung) anzupassen.

Nehmen Sie dann die Werte und passen Sie die größere Anzahl von Markierungen an .Y adj k j =ykj - τ jτ^jykjadj=ykjτ^j

Möglichkeit 2: eine ähnliche Idee, aber . Hier könnten Sie ein nichtlineares Modell der kleinsten Quadrate oder ein GLM mit einem Log-Link anpassen (ich würde mich wahrscheinlich zum zweiten von diesen beiden neigen). Auch hier benötigen Sie eine Einschränkung für die s. τE(yij)=μiτjτ

Dann wäre eine geeignete Anpassung, durch zu teilen .τj^

Möglichkeit 3: Additiv auf der Logit-Skala. Dies ist möglicherweise besser geeignet, wenn einige Markierungen nahe an 0 oder 100 heranreichen. Bei sehr kleinen Markierungen sieht es ungefähr multiplikativ aus, bei mittleren Markierungen additiv und bei sehr hohen Markierungen grob multiplikativ in . Sie können eine Beta-Regression oder ein quasi-binomiales GLM mit Logit-Link verwenden, um dieses Modell anzupassen.1p=(100m)/100

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.