Erkennung von Plagiaten im Multiple-Choice-Test

Angenommen, ein Aufsichtspersonal vermutet, dass ein Schüler während einer Multiple-Choice-Prüfung Antworten von der Arbeit eines anderen Schülers kopiert. Sie überprüft später ihre Antworten und findet einige Ähnlichkeiten - aber andererseits gibt es aufgrund der Art der Prüfung zwangsläufig Ähnlichkeiten. Wie sollte sie feststellen, ob ihr Verdacht begründet war?

Mit anderen Worten, sie wird sicherlich die Prüfungen mit denen anderer Studenten vergleichen müssen (die, nehmen wir an, nicht betrogen haben). Aber wenn die Klassengröße sehr groß ist, ist es sinnvoll, eine zufällige Stichprobe zum Vergleich zu ziehen? Wie viele würde sie dann nehmen? Wenn es viele Fragen zur Prüfung gäbe, wäre es auch sinnvoll, eine Stichprobe der Fragen zum Vergleich zu ziehen? Macht es einen signifikanten Unterschied, ob jede Frage 2 mögliche Antworten (wahr / falsch) oder beispielsweise 4 hatte?

Ich habe keine spezifischen Zahlen, weil ich mich frage, wie das im Allgemeinen funktionieren würde. Ich habe einen Hintergrund in Mathematik, aber wenig Ausbildung in Statistik. Wie würden Sie diese Analyse statistisch beschreiben?

Vielen Dank.

correlation terminology

— Théophile
quelle

Ich habe das Gefühl , Sie haben die Annahme, hier , dass weder Betrüger noch cheatee eine Mehrheit richtigen Antworten hatte. Wenn zum Beispiel beide überall richtige Antworten erhalten haben, können Sie nichts beweisen. Aber sagen wir, beide haben überall die gleichen falschen Antworten erhalten, es besteht wahrscheinlich eine sehr hohe Wahrscheinlichkeit, dass sie betrügen. Ich denke, Sie müssen sich auf Antworten konzentrieren, die falsch waren, um diese Messung durchzuführen.

— Spacey

Ich würde denken, dass Sie selektiv sein und Fragen auswählen möchten, die am wahrscheinlichsten kopiert werden. Dies wären wahrscheinlich diejenigen, die am schwierigsten erscheinen. Es besteht aber auch die Möglichkeit, dass die betrügerische Person nur Fragen auswählt, die Themen abdecken, die sie nicht studiert hat, und die schwer zu erkennen sind. Aber die gleichen Antworten auf einfache Fragen zu haben, würde Ihnen wirklich nichts sagen, da beide Parteien die richtige Antwort kennen würden.

— Michael R. Chernick

Es überrascht nicht, dass sich in der Vergangenheit viele Menschen mit Betrugserkennung befasst haben, darunter auch Steven Levitt, Autor von Freakonomics. Wenn Sie feststellen möchten, ob jemand allein aufgrund der Antworten betrogen hat, geben Sie keine Multiple-Choice-Tests und beaufsichtigen Sie die Prüfungen selbst. Möglicherweise können Sie die Hypothese ablehnen, dass die Arbeit der Schüler nichts damit zu tun hat, aber Sie werden eine schreckliche Zeit haben, um zu beweisen, dass sie nicht einfach zusammen studiert haben. Haben Sie einen Sitzplan und haben Sie die Ausweise der Schüler überprüft, dass sie gemäß dem Sitzplan saßen? Können Sie die Schüler erneut testen?

— Douglas Zare

Das Abtasten der Fragen scheint eine schreckliche Idee zu sein, da Sie alle Fragen leicht analysieren können und Sie gute Indikatoren für das Kopieren verpassen, z. B. eine Reihe von Antworten, die gegenüber der richtigen Antwort um 1 versetzt sind. ZB sind die richtigen Antworten 30) A 31) B 32) C 33) D 34) E und ein Schüler hat 30) A 31) B 32) C 33) D 34) B und ein anderer hat 30) B 31) C. 32) D 33) B. Wenn diese Antworten sehr unpopuläre falsche Antworten sind, passen sie zu dem Modell, dass der zweite Schüler die erste kopiert hat, und haben einen Auslassungsfehler gemacht. Es ist schwierig, diese Antworten zu erklären, ohne sie zu kopieren.

— Douglas Zare

Mit der aktuellen Software ist es relativ einfach und effizient, eine Reihe von Prüfungen mit denselben Fragen zu erstellen, aber sowohl die Reihenfolge der Fragen als auch die Reihenfolge der Antworten sind permutiert. Im Allgemeinen benötigen Sie höchstens 4 Versionen.

— R. Schumacher

Hier ist eine überraschend große Auswahl an Antwortkopie-Indizes, wobei ihre Vorzüge jedoch nur wenig diskutiert werden: http://www.bjournal.co.uk/paper/BJASS_01_01_06.pdf .

Es gibt ein Gebiet der (Bildungs-) Psychologie namens Item Response Theory (IRT), das den statistischen Hintergrund für Fragen wie diese liefert. Wenn Sie Amerikaner sind und einen SAT, ACT oder GRE absolviert haben, haben Sie sich mit einem Test befasst, der unter Berücksichtigung von IRT entwickelt wurde. Das Grundpostulat des IRT ist, dass jeder Schüler durch seine Fähigkeit charakterisiert ist ; Jede Frage ist durch ihre Schwierigkeit . und die Wahrscheinlichkeit, eine Frage richtig zu beantworten, ist wobei das cdf der Standardnormalen ist und $i$ $a_i$ $b_j$

π (a_{i}, b_{j}; c) = P r o b [student i answers question j correctly] = Φ (c (a_{i} - b_{j}))

$\pi(a_i,b_j;c) = {\rm Prob}[\mbox{student $i$ answers question $j$ correctly}] = \Phi( c(a_i-b_j) )$

Φ (z)

$\Phi(z)$

c

$c$ ist ein zusätzlicher Empfindlichkeits- / Unterscheidungsparameter (manchmal wird er gemacht, , wenn genügend Informationen vorhanden sind, dh genügend Testteilnehmer, um die Unterschiede zu identifizieren). Eine versteckte Annahme hier, dass angesichts der Fähigkeit der Schüler Antworten auf verschiedene Fragen unabhängig sind. Diese Annahme wird verletzt, wenn Sie eine Reihe von Fragen zu demselben Textabschnitt haben, aber lassen Sie uns für eine Minute davon abstrahieren.

c_{j}

$c_j$

i

$i$

Bei "Ja / Nein" -Fragen kann dies das Ende der Geschichte sein. Bei mehr als zwei Kategoriefragen können wir zusätzlich davon ausgehen, dass alle falschen Entscheidungen gleich wahrscheinlich sind. für eine Frage mit Entscheidungen ist die Wahrscheinlichkeit jeder falschen Wahl . $j$ $k_j$ $\pi'(a_i,b_j;c) = [1-\pi(a_i,b_j;c)]/(k_j-1)$

Für Studierende der Fähigkeiten und , die Wahrscheinlichkeit , dass sie für eine Frage mit Mühe auf ihre Antworten entsprechen ist Wenn Sie , können Sie dies in die Wahrscheinlichkeit der Übereinstimmung mit der richtigen Antwort und die Wahrscheinlichkeit der Übereinstimmung mit einer falschen Antwort, , obwohl diese Unterscheidung vom konzeptionellen Rahmen der IRT kaum wesentlich ist. $a_i$ $a_k$ $b_j$

ψ (a_{i}, a_{k}; b_{j}, c) = π (a_{i}, b_{j}; c) π (a_{k}, b_{j}; c) + (k - 1) π^{'} (a_{i}, b_{j}; c) π^{'} (a_{k}, b_{j}; c)

$\psi(a_i,a_k;b_j,c) = \pi(a_i,b_j;c)\pi(a_k,b_j;c) + (k-1)\pi'(a_i,b_j;c)\pi'(a_k,b_j;c)$

ψ_{c} (a_{i}, a_{k}; b_{j}, c) = π (a_{i}, b_{j}; c) π (a_{k}, b_{j}; c)

$\psi_c(a_i,a_k;b_j,c) = \pi(a_i,b_j;c)\pi(a_k,b_j;c)$

ψ_{i} (a_{i}, a_{k}; b_{j}, c) = (k - 1) π^{'} (a_{i}, b_{j}; c) π^{'} (a_{k}, b_{j}; c)

$\psi_i(a_i,a_k;b_j,c) = (k-1)\pi'(a_i,b_j;c)\pi'(a_k,b_j;c)$

Jetzt können Sie die Wahrscheinlichkeit einer Übereinstimmung berechnen, aber sie wird wahrscheinlich kombinatorisch winzig sein. Ein besseres Maß kann das Verhältnis der Informationen im paarweisen Antwortmuster und beziehe es auf die Entropie Sie können dies für alle Schülerpaare tun, sie zeichnen oder ordnen und das größte Verhältnis von Information zu Entropie untersuchen.

I (i, k) = \sum_{j} 1 {{match}_{j}} \ln ψ (a_{i}, a_{k}; b_{j}, c) + 1 {{non-match}_{j}} \ln [1 - ψ (a_{i}, a_{k}; b_{j}, c)]

$I(i,k) = \sum_j 1\{ \mbox{match}_j \} \ln \psi(a_i,a_k;b_j,c) + 1\{ \mbox{non-match}_j \} \ln [1- \psi(a_i,a_k;b_j,c) ]$

E (i, k) = E [I (i, k)] = \sum_{j} ψ (a_{i}, a_{k}; b_{j}, c) \ln ψ (a_{i}, a_{k}; b_{j}, c) + (1 - ψ (a_{i}, a_{k}; b_{j}, c)) \ln [1 - ψ (a_{i}, a_{k}; b_{j}, c)]

$E(i,k) = {\rm E}[ I(i,k) ] = \sum_j \psi(a_i,a_k;b_j,c) \ln \psi(a_i,a_k;b_j,c) + (1- \psi(a_i,a_k;b_j,c) ) \ln [1- \psi(a_i,a_k;b_j,c) ]$

Die Parameter des Tests und der Schülerfähigkeiten fallen nicht aus dem Himmel, können aber in moderner Software wie R mit leicht geschätzt werden oder ähnliche Pakete: $\{c,b_j, j=1, 2, \ldots\}$ $\{a_i\}$ lme4

    irt <- glmer( answer ~ 1 + (1|student) + (1|question), family = binomial)

oder etwas sehr nahes daran.

— StasK
quelle