Interrater-Zuverlässigkeit mit vielen nicht überlappenden Bewertern

8

Ich habe einen Datensatz von mehr als 11.000 verschiedenen Elementen, von denen jedes von mindestens 3 verschiedenen Bewertern auf Amazon Mechanical Turk auf einer nominalen Skala klassifiziert wurde .

88 verschiedene Bewerter gaben Urteile für die Aufgabe ab, und kein Bewerter vervollständigte mehr als 800 Urteile. Die meisten lieferten deutlich weniger.

Meine Frage lautet:

Ich möchte ein gewisses Maß an Interrater-Zuverlässigkeit für die Ratings berechnen, etwas Besseres als ein bloßer Blick auf den Konsens. Ich glaube jedoch, dass Fleiss Kappa, das Maß, das ich am besten kenne, eine konsistente Gruppe von Bewertern für den gesamten Satz von Elementen erfordern würde, und daher kann ich Fleiss Kappa nicht verwenden, um die IRR mit meinen Daten zu überprüfen. Ist das richtig? Gibt es eine andere Methode, die ich verwenden könnte?

Jeder Rat wäre sehr dankbar!

reliability agreement-statistics cohens-kappa

— Judd Antin
quelle

1

Willkommen auf der Seite! Ähnliche Fragen wurden bereits mit diesen Tags gestellt. Haben Sie geprüft, ob unter diesen Tags eine funktionierende Lösung gefunden werden kann?

— StasK

1

Vielen Dank! Ich habe es wirklich überprüft. Ich habe nur eine direkt relevante Frage gefunden , aber sie hat keine Antworten erhalten.

— Judd Antin

2

Wenn Sie sich nur selbst überzeugen müssen (anstatt eine Nummer für eine andere Partei zu melden), können Sie ein kreuzklassifiziertes hierarchisches / gemischtes Modell anpassen, wobei Elemente und Bewerter zwei zufällige Effekte sind. Dann ist die Intraclass-Korrelation für die Bewerter [Varianz des zufälligen Effekts der Bewerter] / [Varianz des zufälligen Effekts der Bewerter + Varianz des zufälligen Effekts der Elemente + (Varianz der logistischen Verteilung = )] . Eine bestimmte Implementierung hängt von der von Ihnen verwendeten Rechenplattform ab. Die Standardeinstellung für CV ist R, Sie würden sie also verwenden , aber Sie haben möglicherweise etwas anderes wie SPSS oder Stata. $\pi^2/3$ nlme

— StasK
quelle

2

Schauen Sie sich Krippendorffs Alpha an. Es hat mehrere Vorteile gegenüber einigen anderen Maßnahmen wie Cohens Kappa, Fleiss Kappa, Cronbachs Alpha: Es ist robust gegenüber fehlenden Daten (was meiner Meinung nach das Hauptanliegen ist, das Sie haben); es ist in der Lage, mit mehr als 2 Bewertern umzugehen; und es kann mit verschiedenen Arten von Skalen umgehen (nominal, ordinal usw.), und es berücksichtigt auch Zufallsvereinbarungen besser als einige andere Maßnahmen wie Cohens Kappa.

Die Berechnung von Krippendorffs Alpha wird von mehreren statistischen Softwarepaketen unterstützt, darunter R (durch das irr-Paket), SPSS usw.

Im Folgenden finden Sie einige relevante Artikel, in denen Krippendorffs Alpha einschließlich seiner Eigenschaften und seiner Implementierung erörtert und mit anderen Maßnahmen verglichen wird:

Hayes, AF & Krippendorff, K. (2007). Beantwortung des Anrufs nach einem Standard-Zuverlässigkeitsmaß für die Codierung von Daten. Kommunikationsmethoden und -maßnahmen, 1 (1), 77-89.
Krippendorff, K. (2004). Zuverlässigkeit bei der Inhaltsanalyse: Einige häufige Missverständnisse und Empfehlungen. Human Communication Research, 30 (3), 411-433. doi: 10.1111 / j.1468-2958.2004.tb00738.x
Kapitel 3 in Krippendorff, K. (2013). Inhaltsanalyse: Eine Einführung in die Methodik (3. Aufl.): Sage.

Auf der Website von Krippendorff finden Sie einige zusätzliche technische Dokumente

— Ynagar
quelle