Wenn Sie in letzter Zeit die Community-Bulletins gelesen haben, haben Sie wahrscheinlich The Hunting of the Snark gesehen, einen Beitrag auf dem offiziellen StackExchange-Blog von Joel Spolsky, dem CEO des StackExchange-Netzwerks. Er diskutiert eine statistische Analyse, die an einer Stichprobe von SE-Kommentaren durchgeführt wurde, um deren "Freundlichkeit" aus der Perspektive eines externen Benutzers zu bewerten. Die Kommentare wurden von StackOverflow nach dem Zufallsprinzip ausgewählt und die Inhaltsanalysten waren Mitglieder der Mechanical Turk-Community von Amazon, einem Markt für Arbeit , der Unternehmen mit Arbeitnehmern verbindet, die kleine, kurze Aufgaben zu erschwinglichen Gebühren erledigen.
Vor nicht allzu langer Zeit war ich Diplom-Politikwissenschaftlerin und nahm unter anderem an einer Lehrveranstaltung zur Analyse statistischer Inhalte teil . Das abschließende Projekt der Klasse, eigentlich ihr gesamter Zweck, bestand darin, eine detaillierte Analyse der Kriegsberichte der New York Times durchzuführen , um zu testen, ob viele Annahmen, die Amerikaner über die Berichterstattung in Kriegen machen, zutreffend sind oder nicht (Spoiler: Beweise deuten darauf hin, dass sie zutreffen) nicht). Das Projekt war riesig und hat ziemlich viel Spaß gemacht, aber der mit Abstand schmerzhafteste Abschnitt war die "Schulungs- und Zuverlässigkeitstestphase", die stattfand, bevor wir eine vollständige Analyse durchführen konnten. Es hatte zwei Zwecke (siehe Seite 9 des verlinkten Dokuments für eine detaillierte Beschreibung sowie Verweise auf Intercoder-Zuverlässigkeitsstandards in der statistischen Literatur zur Inhaltsanalyse):
Bestätigen Sie, dass alle Codierer, dh Leser des Inhalts, nach denselben qualitativen Definitionen geschult wurden. In Joels Analyse bedeutete dies, dass jeder genau wusste, wie das Projekt "freundlich" und "unfreundlich" definierte.
Vergewissern Sie sich, dass alle Codierer diese Regeln zuverlässig interpretiert haben, dh, wir haben eine Stichprobe gezogen, die Teilmenge analysiert und dann statistisch gezeigt, dass unsere paarweisen Korrelationen bei qualitativen Bewertungen ziemlich ähnlich waren.
Zuverlässigkeitstests taten weh, weil wir es drei- oder viermal machen mussten. Bis -1- gesperrt war und -2- genügend paarweise Korrelationen aufwies, waren unsere Ergebnisse für die vollständige Analyse verdächtig. Sie konnten nicht als gültig oder ungültig nachgewiesen werden. Vor allem mussten wir vor dem endgültigen Probensatz Pilotversuche zur Zuverlässigkeit durchführen.
Meine Frage lautet: Joels statistische Analyse enthielt keinen Pilotzuverlässigkeitstest und ermittelte keine operativen Definitionen für "Freundlichkeit". Waren die endgültigen Daten verlässlich genug, um etwas über die statistische Validität seiner Ergebnisse zu sagen?
Betrachten Sie diesen Leitfaden für den Wert der Intercoder-Zuverlässigkeit und der konsistenten Betriebsdefinitionen. In derselben Quelle finden Sie Informationen zu Zuverlässigkeitstests für Piloten (Punkt 5 in der Liste).
Gemäß dem Vorschlag von Andy W. in seiner Antwort versuche ich , mithilfe dieser Befehlsreihe in R (aktualisiert, wenn ich neue Statistiken berechne) eine Reihe von Zuverlässigkeitsstatistiken für den hier verfügbaren Datensatz zu berechnen.
Beschreibende Statistiken finden Sie hier
Prozentuale Übereinstimmung (mit Toleranz = 0): 0,0143
Prozentuale Übereinstimmung (mit Toleranz = 1): 11.8
Krippendorffs Alpha: 0,1529467
In einer anderen Frage habe ich auch versucht, ein Item-Response-Modell für diese Daten zu erstellen .