FRAGE:
Ich habe Binärdaten zu Prüfungsfragen (richtig / falsch). Einige Personen hatten möglicherweise zuvor Zugriff auf eine Untergruppe von Fragen und ihre richtigen Antworten. Ich weiß nicht wer, wie viele oder welche. Wenn es kein Schummeln gäbe, nehme ich an, ich würde die Wahrscheinlichkeit einer korrekten Antwort für Item als , wobei die Schwierigkeit der Frage darstellt und die latente Fähigkeit des Individuums ist. Dies ist ein sehr einfaches Item-Response-Modell, das mit Funktionen wie ltm's rasch () in R geschätzt werden kann. Zusätzlich zu den Schätzungen (wobei Individuen indiziert) der latenten Variablen habe ich Zugriff auf separate Schätzungenl o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q j derselben latenten Variablen, die von einem anderen Datensatz abgeleitet wurden, in dem Betrug nicht möglich war.
Das Ziel ist es, Personen zu identifizieren, die wahrscheinlich betrogen haben, und die Gegenstände, an denen sie betrogen haben. Welche Ansätze könnten Sie verfolgen? Zusätzlich zu den Rohdaten sind , und verfügbar, obwohl die ersten beiden aufgrund von Betrug eine gewisse Verzerrung aufweisen. Idealerweise würde die Lösung in Form einer probabilistischen Clusterbildung / Klassifizierung vorliegen, obwohl dies nicht erforderlich ist. Praktische Ideen sind ebenso willkommen wie formale Ansätze. z j q j
Bisher habe ich die Korrelation von Fragen-Scores für Paare von Personen mit höheren vs. niedrigeren Scores verglichen (wobei ist) ein grober Index der Wahrscheinlichkeit, dass sie betrogen haben). Zum Beispiel sortierte ich Individuen nach und zeichnete dann die Korrelation aufeinanderfolgender Paare von Individuenfragewerten auf. Ich habe auch versucht, die mittlere Korrelation von Scores für Personen zu deren -Werte größer als das Quantil von als eine Funktion von . Keine offensichtlichen Muster für beide Ansätze. q j - z j q j - z j q j - z jnth q j - z jn
AKTUALISIEREN:
Am Ende kombinierte ich Ideen von @SheldonCooper und dem hilfreichen Freakonomics- Artikel, auf den @whuber mich zeigte. Andere Ideen / Kommentare / Kritik sind willkommen.
Sei die binäre Punktzahl von Person in Frage . Schätzen Sie den des Item-Antwortmodells wobei der Einfachheitsparameter des Items und eine latente Fähigkeitsvariable ist. (Ein komplizierteres Modell kann eingesetzt werden; I ‚m eine 2PL in meiner Anwendung verwenden). Wie ich in meinem ursprünglichen Beitrag erwähnt, ich habe Schätzungen \ hat {q_j} der Fähigkeit , Variable von einem separaten Daten - Set \ {y_ {ij} \} (verschiedene Einzelteile, gleiche Personen) auf Insbesondere sind \ hat {q_j} empirische Bayes-Schätzungen aus demselben Item-Response-Modell wie oben. j i l o g i t ( P r ( X i j = 1 | z j ) = β i + z j , β i z j ^ q j { y i j } ^ q j
Die Wahrscheinlichkeit der beobachteten Punktzahl , abhängig von der Leichtigkeit des Gegenstands und der Fähigkeit der Person, kann wie geschrieben werden: wobei die vorhergesagte Wahrscheinlichkeit von ist eine korrekte Antwort, und ist das inverse Logit. Dann ist, abhängig von den Eigenschaften des Gegenstands und der Person, die gemeinsame Wahrscheinlichkeit, dass die Person die Beobachtungen hat, und in ähnlicher Weise die gemeinsame Wahrscheinlichkeit, dass der Gegenstand die Beobachtungen hat p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xPij( ^ β i , ^
Ein zusätzlicher Schritt, den ich versucht habe, besteht darin, r% der am wenigsten wahrscheinlichen Personen (dh Personen mit dem niedrigsten r% der sortierten p_j-Werte) zu nehmen und den mittleren Abstand zwischen ihren beobachteten Werten x_j zu berechnen (der für Personen mit niedrigem r korreliert werden sollte, wer sind mögliche Betrüger), und zeichnen Sie es für r = 0,001, 0,002, ..., 1.000. Der mittlere Abstand steigt für r = 0,001 auf r = 0,025, erreicht ein Maximum und fällt dann bei r = 1 langsam auf ein Minimum ab. Nicht genau das, was ich mir erhofft hatte.