Ich habe einen Datensatz von mehr als 11.000 verschiedenen Elementen, von denen jedes von mindestens 3 verschiedenen Bewertern auf Amazon Mechanical Turk auf einer nominalen Skala klassifiziert wurde .
88 verschiedene Bewerter gaben Urteile für die Aufgabe ab, und kein Bewerter vervollständigte mehr als 800 Urteile. Die meisten lieferten deutlich weniger.
Meine Frage lautet:
Ich möchte ein gewisses Maß an Interrater-Zuverlässigkeit für die Ratings berechnen, etwas Besseres als ein bloßer Blick auf den Konsens. Ich glaube jedoch, dass Fleiss Kappa, das Maß, das ich am besten kenne, eine konsistente Gruppe von Bewertern für den gesamten Satz von Elementen erfordern würde, und daher kann ich Fleiss Kappa nicht verwenden, um die IRR mit meinen Daten zu überprüfen. Ist das richtig? Gibt es eine andere Methode, die ich verwenden könnte?
Jeder Rat wäre sehr dankbar!