Ich benutze Cohens Kappa , um die Übereinstimmung zwischen zwei Richtern zu berechnen.
Es wird berechnet als:
wobei der Anteil der Übereinstimmung und die Wahrscheinlichkeit einer zufälligen Übereinstimmung ist.P ( E )
Für den folgenden Datensatz erhalte ich nun die erwarteten Ergebnisse:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Wir können sehen, dass beide Richter nicht sehr gut übereinstimmten. In dem folgenden Fall, in dem beide Richter ein Kriterium bewerten, wird Kappa mit Null bewertet:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Jetzt kann ich sehen, dass die zufällige Übereinstimmung offensichtlich 1 ist, was dazu führt, dass Kappa Null ist, aber zählt dies als verlässliches Ergebnis? Das Problem ist, dass ich normalerweise nicht mehr als zwei Urteile pro Kriterium habe, daher werden diese niemals mit einem Kappa größer als 0 bewertet, was meiner Meinung nach nicht sehr repräsentativ ist.
Habe ich recht mit meinen Berechnungen? Kann ich eine andere Methode verwenden, um die Übereinstimmung zu berechnen?
Hier können wir sehen, dass Kappa für mehrere Urteile gut funktioniert:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
Tag hier nicht wirklich .