Peer-Grading-Design - Auswahl eines Diagramms, um genaue Platzierungen / Bewertungen zu erhalten

Hintergrund. Ich schreibe Code für die halbautomatische Bewertung, wobei Peer-Bewertung als Teil des Bewertungsprozesses verwendet wird. Die Schüler erhalten jeweils zwei Aufsätze, und die Schüler können mithilfe eines Schiebereglers auswählen, welcher besser und wie viel besser er ist. z. B. könnte der Schieberegler ungefähr so aussehen:

A---X-B

Basierend auf den Ergebnissen der Peer-Bewertung werden die Aufsätze bewertet, und der Lehrer bewertet dann die oberen X% und unteren X%, und die Bewertungen für alle Aufsätze werden basierend darauf automatisch berechnet. Ich habe bereits Methoden für diesen Ranking- / Scoring-Prozess entwickelt. Dieser Teil funktioniert gut.

Meine Frage. Wie soll ich auswählen, welche Aufsatzpaare den Schülern gegeben werden sollen?

Simulationen deuten darauf hin, dass ein Aufsatz mindestens dreimal von Fachleuten bewertet werden muss, um ein genaues Ranking zu erhalten. Daher sollte jeder Aufsatz in mindestens 3 der Paare erscheinen, die für die Peer-Bewertung vorgestellt werden.

Wir können uns das als Graphproblem vorstellen. Stellen Sie sich die Aufsätze als Knoten vor. Jede Kante repräsentiert ein Paar von Aufsätzen, die während des Peer-Grading-Prozesses präsentiert werden. Die obigen Genauigkeitsergebnisse legen nahe, dass der Grad jedes Knotens (oder der meisten Knoten) mindestens 3 betragen sollte. Welche Art von Grafik sollte ich verwenden? Wie soll ich das Diagramm generieren, das während der Peer-Bewertung verwendet werden soll?

Eine Herausforderung besteht darin, dass bei Peer-Graphen im Diagramm die Peer-Bewertungen verzerrt werden. Zum Beispiel möchten wir nicht, dass qualitativ hochwertige Aufsätze vorwiegend mit qualitativ hochwertigen Aufsätzen bewertet werden, da dies die Ergebnisse der Peer-Bewertung verzerren würde.

Was würden Sie empfehlen?

Ich denke, dieses Problem könnte mit einem ungerichteten Graphen unter Verwendung der folgenden Methoden modelliert werden:

Beginnen Sie, indem Sie den Knoten mit dem geringsten Grad nehmen und ihn mit dem nächstkleineren verknüpfen
Fahren Sie fort, bis Ihr durchschnittlicher Abschluss mindestens 3 beträgt
Maximieren Sie die Knotenkonnektivität
Minimieren Sie die Anzahl der Cliquen

Ist das ein guter Ansatz? Wenn nicht, was würden Sie stattdessen empfehlen?

algorithms graphs modelling

— ismail
quelle

Dies könnte eine interessante Anwendung für Expander sein . Haben Sie versucht, die Aufgaben in einem Expander zu arrangieren?

— Shaull

Ihre Vorstellung von Kanten scheint halb richtig. Kanten zeigen nur einen Vergleich an, kein Ergebnis eines Vergleichs. Das bloße Vorhandensein / Fehlen von Kanten codiert also nicht viele Informationen, sondern nur die Vergleiche, die stattgefunden haben. Ein natürlicher Weg, um das Problem zu lösen, sind gewichtete / gerichtete Kanten, bei denen die Richtung z. B. in Richtung der bevorzugten ist. Es scheint einem Strömungsproblem ähnlich zu sein. Sie sagen "Schieberegler", ist es mehrwertig? oder binär? "Slider" klang für mich mehrwertig, wie eine Bewertung.

— vzn

Können Sie Ihre Frage klären? Fragen Sie, wie Sie das Diagramm auswählen sollen? Oder fragen Sie sich anhand einer Grafik und einer Reihe von Bewertungen für jede Kante, wie alle Aufsätze eingestuft werden sollen? Ersteres fällt unter die allgemeine Kategorie "experimentelles Design" (und meine Antwort spricht es an); Letzteres unter der allgemeinen Kategorie "Datenanalyse" (und sowohl meine Antwort als auch die Antwort von vzn bieten einige hilfreiche Ressourcen dafür).

— DW

Eigentlich hatten wir das Ranking und die Wertung ausgearbeitet, werden aber den folgenden Ansatz ausprobieren.

— ismail

In einigen Analysen ähnlicher Probleme sind die Wörter "Ranking" und "Scoring" austauschbar. Aus weiteren Überprüfungen und Bearbeitungen geht hervor, dass Sie in Ihrem System "Ranking" als computergestützte Schätzung eines Rankings basierend auf den Vergleichsdaten und "Scoring" als menschenbasierte subjektive Entscheidung über die Essayqualität (auch) bezeichnen normalerweise als "Benotung" bezeichnet), die dem Ranking-Prozess folgt. & Sie sind hauptsächlich daran interessiert, die Vergleichspaare zu verteilen ...

— vzn

Antworten:

Dies besteht aus zwei Teilen: (a) Auswählen eines Diagramms ( experimentelles Design ), um zu bestimmen, welche Aufsatzpaare die Schüler im Peer-Benotungsprozess bewerten werden, und (b) Einordnen aller Aufsätze basierend auf den Peer-Noten des Schülers zu Bestimmen Sie, welchen Rang der Lehrer haben soll. Ich werde für jede Methode einige vorschlagen.

Grafik auswählen

Problemstellung. Der erste Schritt besteht darin, ein Diagramm zu erstellen. Mit anderen Worten, Sie müssen auswählen, welche Aufsatzpaare den Schülern während der Peer-Grading-Übung gezeigt werden sollen.

Vorgeschlagene Lösung. Für diese Aufgabe schlage ich vor, dass Sie einen Zufallsgraphen generieren , der gleichmäßig zufällig aus der Menge aller 3-regulären (einfachen) Graphen ausgewählt wird. $G$

$d$

$n$

Glücklicherweise sind dafür Algorithmen bekannt. Grundsätzlich machen Sie Folgendes:

$3n$ $n$ $3n$ $3n$
$n$
Testen Sie als Nächstes, ob das resultierende Diagramm einfach ist (dh es hat keine Selbstschleifen und keine wiederholten Kanten). Wenn es nicht einfach ist, verwerfen Sie das Diagramm und fahren Sie mit Schritt 1 fort. Wenn es einfach ist, sind Sie fertig. Geben Sie dieses Diagramm aus.

$O(1)$

Ich habe gesehen, wie dieser Ansatz Bollobas, Bender und Canfield zugeschrieben wurde. Der Ansatz wird auch in Wikipedia kurz zusammengefasst . Sie können auch eine Diskussion in diesem Blog-Beitrag finden .

$n$ $n$ $n$

Ranking aller Aufsätze

Problemstellung. OK, jetzt haben Sie eine Grafik und haben diese Aufsatzpaare (wie durch die Kanten in der Grafik angegeben) den Schülern präsentiert, damit sie während der Peer-Grading-Übung benoten können. Sie haben die Ergebnisse jedes Aufsatzvergleichs. Jetzt besteht Ihre Aufgabe darin, eine lineare Rangfolge für alle Aufsätze abzuleiten, um festzustellen, welche vom Lehrer bewertet werden sollen.

Lösung. Ich schlug vor, dass Sie das Bradley-Terry-Modell verwenden . Es ist ein mathematischer Ansatz, der genau dieses Problem löst. Es wurde für die Rangfolge von Spielern in bestimmten Sportarten entwickelt, basierend auf den Ergebnissen von Spielen zwischen einigen Spielerpaaren. Es wird davon ausgegangen, dass jeder Spieler eine (unbekannte) Stärke hat, die als reelle Zahl quantifiziert werden kann, und die Wahrscheinlichkeit, dass Alice Bob schlägt, wird durch eine glatte Funktion der Differenz ihrer Stärken bestimmt. In Anbetracht der paarweisen Gewinn- / Verlust-Rekorde wird dann die Stärke jedes Spielers geschätzt.

Dies sollte perfekt für Sie sein. Sie können jeden Aufsatz als Spieler behandeln. Jeder Vergleich zwischen zwei Aufsätzen (während des Peer-Grading-Prozesses) ist wie das Ergebnis einer Übereinstimmung zwischen ihnen. Mit dem Bradley-Terry-Modell können Sie all diese Daten erfassen und für jeden Aufsatz eine Stärke ableiten , wobei höhere Stärken besseren Aufsätzen entsprechen. Jetzt können Sie diese Stärken nutzen, um alle Aufsätze nach Rang zu ordnen.

$i$ $j$

Es gibt alternative Möglichkeiten, um Bewertungen oder Rankings für alle Aufsätze abzuleiten, wenn Sie über die Daten verfügen. Zum Beispiel ist die Elo-Methode eine andere. Ich fasse einige davon in meiner Antwort auf eine andere Frage zusammen . Lesen Sie diese Antwort für weitere Details.

Ein weiterer Kommentar: Das Bradley-Terry-Modell geht davon aus, dass das Ergebnis jedes Vergleichs zwischen zwei Spielern ein Gewinn oder ein Verlust ist (dh ein binäres Ergebnis). Es hört sich jedoch so an, als hätten Sie tatsächlich detailliertere Daten: Ihr Schieberegler gibt eine grobe Schätzung darüber, wie viel besser der Peer-Grader einen Aufsatz als einen anderen bewertet hat. Der einfachste Ansatz wäre, einfach jeden Schieberegler einem binären Ergebnis zuzuordnen. Wenn Sie jedoch wirklich möchten, können Sie möglicherweise alle Daten mithilfe einer komplexeren Analyse verwenden. Das Bradley-Terry-Modell beinhaltet eine logistische Regression. Wenn Sie dies verallgemeinern, um geordnetes Logit zu verwenden , können Sie die zusätzlichen Informationen, die Sie von jedem Schieberegler erhalten, nutzen, da die Ergebnisse der Schieberegler nicht binär sind, sondern eine von mehreren Möglichkeiten darstellen.

Effizienter Einsatz des Lehrers

Sie schlagen vor, dass der Lehrer die oberen X% und unteren X% aller Aufsätze manuell bewertet (unter Verwendung der Rangfolge, die aus den Ergebnissen der Peer-Bewertung abgeleitet wurde). Dies könnte funktionieren, aber ich vermute, dass dies nicht die effizienteste Nutzung der begrenzten Zeit des Lehrers ist. Stattdessen möchte ich einen alternativen Ansatz vorschlagen.

Ich schlage vor, dass der Lehrer eine Teilmenge der Aufsätze benotet, wobei die Teilmenge sorgfältig ausgewählt wird, um die bestmögliche Kalibrierung für alle Aufsätze zu erzielen, die nicht vom Lehrer bewertet wurden. Ich denke, es könnte hilfreich sein, wenn Sie eine Auswahl von Aufsätzen auswählen, die den Bereich möglicher Antworten abdecken (für jeden Aufsatz gibt es einen von Lehrern bewerteten Aufsatz, der nicht zu weit davon entfernt ist). Dafür kann ich mir zwei Ansätze vorstellen, die Sie ausprobieren könnten:

$n$ $k$ $k$ $k$
$k$ $d(e_i,e_j)$ $e_i$ $e_j$ $S$ $d(e,S) = \min_{e' \in S} d(e,e')$ $e$ $S$ $k$ $e_1,e_2,\dots,e_k$ $e_{i+1}$ $d(e,\{e_1,e_2,\dots,e_i\})$ $e$ $e \notin \{e_1,e_2,\dots,e_i\}$ $k$ $k$ $k$

Ich vermute, dass einer dieser Ansätze genauere Ergebnisse liefert, als wenn der Lehrer die oberen X% und unteren X% der Aufsätze bewertet - da die allerbesten und schlechtesten Aufsätze wahrscheinlich nicht repräsentativ für die Masse der Aufsätze in der Mitte sind.

$d(e_1,e_2) = (s(e_1)-s(e_2))^2$ $s(e)$ $e$ wie vom Terry-Bradley-Modell basierend auf den Ergebnissen der Peer-Bewertung geschätzt. Sie können jedoch etwas Anspruchsvolleres tun. Zum Beispiel könnten Sie den normalisierten Levenshtein-Bearbeitungsabstand zwischen Aufsatz berechnen $e_1$ $e_2$ $k$

— DW
quelle

schwer zu folgen relativ zur ursprünglichen Problemstellung. Lösen Sie das Problem der gleichmäßigen Verteilung von Vergleichen?

— vzn

@vzn, ich habe meine Antwort bearbeitet, um zu klären. Die Frage scheint zu sein, wie die Grafik ausgewählt werden soll, dh welche Aufsatzpaare die Schüler während der Peer-Bewertung vergleichen sollen. Die erste Hälfte meiner Antwort gibt eine Lösung für diese Frage. Der zweite Teil meiner Antwort beschreibt, wie die Ergebnisse der Peer-Bewertung verwendet werden, um alle Aufsätze nach Rang zu ordnen und dem Lehrer bei der Auswahl der zu bewertenden Aufsätze zu helfen.

— DW

Einige Ideen, die auf Ihrer nicht genau präzisen Beschreibung der Ein- und Ausgänge und der zu berechnenden Daten basieren (möglicherweise können Sie Ihre Frage in diesem Sinne überarbeiten).

Anscheinend ist dies im Grunde das "heiße oder nicht" "Facemash" -Problem, das mit der Gründung von Facebook entstanden ist (wie im Film "Social Network" dargestellt). Im ursprünglichen "Spiel" hatten Benutzer zwei Bilder und wählten zwischen der attraktiveren Frau. In Ihrem System haben Sie die Wahl zwischen zwei Aufsätzen, von denen einer besser ist.

Aus der nahezu Cyber-Folklore können anscheinend Elo-Ranking-Algorithmen, die in Schachspiel-Bewertungssystemen verwendet werden, verwendet werden, um eine konvergierende Lösung zu berechnen (in diesem Fall wird im Grunde die Punktzahl der Aufsätze in Übereinstimmung mit dem ausgedrückten gerichteten Präferenzdiagramm geschätzt), aber noch nicht sorgfältig gesehen Beschreibung / Beschreibung davon.

Eine andere Möglichkeit ist die Verwendung von Pagerank. das berechnet den geschätzten Einfluss einer Seite basierend auf dem gerichteten Linkgraphen. Präferenzen für Aufsätze sind analog zu Links zu einer Webseite.

Das Problem scheint auch der Zitieranalyse ähnlich zu sein, bei der wissenschaftliche Arbeiten andere Arbeiten zitieren und der Einfluss von Arbeiten geschätzt wird. [Beachten Sie jedoch, dass Pagerank auch in diesem Bereich ein führender Algorithmus ist.]

[1] Warum Elo-Rankings für Facemash-Algorithmen verwenden? Paketüberfluss

[2] Elo-Rangsystem , Wikipedia

[3] Pagerank , Wikipedia

[4] Zitieranalyse , Wikipedia

— vzn
quelle

Skizze, wie man Elo anwendet: Die Spielmatches sind wie Essayvergleiche. Die Aufsätze haben Punkte und die Aufsätze mit der höheren Punktzahl sollten mehr Spiele gewinnen. Der Algorithmus berechnet Ergebnisse, die mit allen Übereinstimmungen am konsistentesten sind.

— vzn

Beachten Sie, dass die Zitierideen tendenziell davon ausgehen, dass alle Vergleiche etwas gleichmäßig über alle Aufsätze verteilt sind. Andernfalls kann sich die relative Begünstigung erhöhen, wenn sich ein Aufsatz in mehr Vergleichen befindet. Ein Teil dieses Ansatzes besteht also auch darin, die Vergleiche auszugleichen, auf die Sie sich zu beziehen scheinen, und ähnelt dem Problem, Spiele auf alle Spieler zu verteilen ...

— vzn