Zuverlässigkeit zwischen Bewertern für Ordnungs- oder Intervalldaten

Welche Zuverlässigkeitsmethoden zwischen Bewertern eignen sich am besten für Ordnungs- oder Intervalldaten?

Ich glaube, dass "Joint Probability of Agreement" oder "Kappa" für Nenndaten ausgelegt sind. Während "Pearson" und "Spearman" verwendet werden können, werden sie hauptsächlich für zwei Bewerter verwendet (obwohl sie für mehr als zwei Bewerter verwendet werden können).

Welche anderen Maße eignen sich für Ordnungs- oder Intervalldaten, dh mehr als zwei Bewerter?

— shadi
quelle

Die Kappa ( ) -Statistik ist ein Qualitätsindex, der die beobachtete Übereinstimmung zwischen zwei Bewertern auf einer nominalen oder ordinalen Skala mit der Zustimmung vergleicht, die nur durch Zufall erwartet wird (als ob die Bewerter aufgeben würden). Erweiterungen für den Fall der Mehrfachbewertung existieren (2, S. 284–291). Bei ordinalen Daten können Sie das gewichtete , das im Grunde genommen wie gewohnt lautet, wobei nicht diagonale Elemente zum Übereinstimmungsmaß beitragen. Fleiss (3) hat Richtlinien zur Interpretation von Werten zur Verfügung gestellt, aber dies sind nur Faustregeln. $\kappa$ $\kappa$ $\kappa$ $\kappa$

Die Statistik ist asymptotisch äquivalent zu dem ICC, der aus einer Zwei-Wege-Zufallseffekt-ANOVA geschätzt wird, aber Signifikanztests und SE, die aus dem üblichen ANOVA-Framework stammen, sind mit binären Daten nicht mehr gültig. Es ist besser, Bootstrap zu verwenden, um das Konfidenzintervall (CI) zu erhalten. Fleiss (8) diskutierte den Zusammenhang zwischen gewichtetem Kappa und der Intraclass-Korrelation (ICC). $\kappa$

Es sollte beachtet werden, dass einige Psychometriker nicht sehr mögen, da es von der Prävalenz des Messobjekts beeinflusst wird, ähnlich wie Vorhersagewerte von der Prävalenz der betrachteten Krankheit beeinflusst werden, und dies kann zu paradoxen Ergebnissen führen. $\kappa$

Die Zuverlässigkeit zwischen Bewertern für Bewerter kann mit Kendalls Konkordanzkoeffizient geschätzt werden . Wenn die Anzahl der Elemente oder Einheiten , die bewertet werden , . (2, S. 269–270). Diese asymptotische Näherung gilt für moderate Werte von und (6), aber mit weniger als 20 Items sind oder Permutationstests besser geeignet (7). Es gibt eine enge Beziehung zwischen Spearmans und Kendalls Statistik: kann direkt aus dem Mittelwert der paarweisen Spearman-Korrelationen berechnet werden (nur für ungebundene Beobachtungen). $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ $W$

Die polychrone Korrelation (ordinale Datenkorrelation) kann auch als Maß für die Übereinstimmung zwischen den Bewertern verwendet werden. In der Tat erlauben sie

Schätzen Sie, wie die Korrelation aussehen würde, wenn Ratings auf einer kontinuierlichen Skala vorgenommen würden.
Test marginale Homogenität zwischen Bewertern.

Tatsächlich kann gezeigt werden, dass es sich um einen Sonderfall der latenten Merkmalsmodellierung handelt, der es ermöglicht, Verteilungsannahmen zu lockern (4).

Über kontinuierliche (oder so angenommene) Messungen ist der ICC, der den Anteil der Varianz quantifiziert, der der Variation zwischen Subjekten zuzuschreiben ist, in Ordnung. Auch hier werden Bootstrap-CIs empfohlen. Wie @ars sagte, gibt es grundsätzlich zwei Versionen - Übereinstimmung und Konsistenz -, die im Fall von Übereinstimmungsstudien (5) anwendbar sind und sich hauptsächlich in der Art der Berechnung der Quadratsumme unterscheiden. Der ICC „Konsistenz“ wird im Allgemeinen ohne Berücksichtigung der Interaktion Item × Rater geschätzt. Das ANOVA-Framework eignet sich für spezifische Blockkonstruktionen, bei denen die Anzahl der Bewertungen ( BIBD ) minimiert werden soll. Dies war in der Tat eine der ursprünglichen Motive für Fleiss 'Arbeit. Dies ist auch der beste Weg für mehrere Bewerter. Die natürliche Erweiterung dieses Ansatzes heißt Generalisierbarkeitstheorie . Eine kurze Übersicht finden Sie in Rater Models: Eine Einführung , ansonsten ist Brennans Buch, das in Psychometrika 2006 71 (3) besprochen wurde , die Standardreferenz .

Als allgemeine Referenz empfehle ich Kapitel 3 der Statistik in der Psychiatrie von Graham Dunn (Hodder Arnold, 2000). Für eine umfassendere Behandlung von Zuverlässigkeitsstudien ist der derzeit beste Bezugspunkt

Dunn, G. (2004). Design und Analyse von Zuverlässigkeitsstudien . Arnold. Siehe die Rezension im International Journal of Epidemiology .

Eine gute Online-Einführung finden Sie auf der Website von John Uebersax, Intraclass Correlation and Related Methods ; Es beinhaltet eine Erörterung der Vor- und Nachteile des ICC-Ansatzes, insbesondere in Bezug auf Ordnungsskalen.

Relevante R-Pakete für die bidirektionale Bewertung (ordinale oder kontinuierliche Messungen) finden Sie in der Psychometrics- Task-Ansicht. Im Allgemeinen verwende ich entweder die Pakete psy , psych oder irr . Es gibt auch das Concord- Paket, aber ich habe es nie benutzt. Für den Umgang mit mehr als zwei Bewertern ist das lme4- Paket der richtige Weg, um leicht zufällige Effekte einzubeziehen , aber die meisten Zuverlässigkeitsentwürfe können mit dem analysiert werden, aov()da wir nur Varianzkomponenten schätzen müssen.

Verweise

J Cohen. Gewichteter Kappa: Nominale Staffelvereinbarung mit Rückstellung für Staffelung von Teilkrediten. Psychological Bulletin , 70 , 213–220, 1968.
S Siegel und Jr N John Castellan. Nichtparametrische Statistik für die Verhaltenswissenschaften . McGraw-Hill, Zweite Auflage, 1988.
JL Fleiss. Statistische Methoden für Kurse und Anteile . New York: Wiley, Zweite Auflage, 1981.
JS Uebersax. Die tetrachorischen und polychorischen Korrelationskoeffizienten . Website Statistical Methods for Rater Agreement, 2006. Verfügbar unter: http://john-uebersax.com/stat/tetra.htm . Zugriff am 24. Februar 2010.
PE Shrout und JL Fleiss. Intraclass-Korrelation: Verwendet bei der Beurteilung der Zuverlässigkeit der Bewerter . Psychological Bulletin , 86 , 420–428, 1979.
MG Kendall und B. Babington Smith. Das Problem der Ranglisten . Annals of Mathematical Statistics , 10 , 275–287, 1939.
P Legendre. Koeffizient der Übereinstimmung . In NJ Salkind, Herausgeber, Encyclopedia of Research Design . SAGE-Veröffentlichungen, 2010.
JL Fleiss. Die Äquivalenz von gewichtetem Kappa und dem Intraclass-Korrelationskoeffizienten als Maß für die Zuverlässigkeit . Educational and Psychological Measurement , 33 , 613–619, 1973.

— chl
quelle

Drei zusätzliche Referenzen: 1. Jenseits von Kappa: Ein Überblick über die Maßnahmen der Interrater-Vereinbarung von Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney und Debajyoti Sinha. 2. Zuverlässigkeit der Interrater und Übereinstimmung der Leistungsbewertungen: Ein methodischer Vergleich von John W. Fleenor, Julie B. Fleenor & William F. Grossnickle

— M. Tibbits

3. Statistische Methoden zur Bewertung von Messfehlern (Zuverlässigkeit) sportmedizinisch relevanter Variablen. von Atkinson G & Nevill AM. Der erste Verweis ist spezifisch für Ordnungsdaten und erörtert andere Maßnahmen jenseits von Kappa für Ordnungsdaten. Die zweiten und dritten sind spezifisch für Intervalldaten.

— M. Tibbits

(+1) Vielen Dank, M. Tibbits! In meinen Vorlesungen über Psychometrie gebe ich im Allgemeinen viele Referenzen und Beispiele an, einschließlich der ersten, die Sie zitiert haben, aber die beiden anderen kannte ich nicht.

— Chl

Zusätzlich ermöglicht das Ordinalpaket eine mehrstufige Modellierung wie lme4, jedoch mit ordinaler Regression.

— John

Die Intraclass-Korrelation kann für Ordnungsdaten verwendet werden. Es gibt jedoch einige Vorbehalte, die in erster Linie die Bewerter nicht unterscheiden können. Weitere Informationen dazu und zur Auswahl zwischen verschiedenen Versionen des ICC finden Sie unter:

Intraclass-Korrelationen: Verwendung bei der Beurteilung der Zuverlässigkeit von Bewertern (Shrout, Fleiss, 1979)

— ars
quelle