Beide Methoden beruhen auf der gleichen Idee, die beobachtete Varianz in verschiedene Teile oder Komponenten zu zerlegen. Es gibt jedoch subtile Unterschiede, ob wir Elemente und / oder Bewerter als feste oder zufällige Effekte betrachten. Abgesehen davon, dass gesagt wird, welcher Teil der Gesamtvariabilität durch den Zwischenfaktor erklärt wird (oder wie stark die Zwischenvarianz von der Restvarianz abweicht), sagt der F-Test nicht viel. Zumindest gilt dies für eine Einweg-ANOVA, bei der wir einen festen Effekt annehmen (und der dem unten beschriebenen ICC (1,1) entspricht). Andererseits liefert der ICC einen begrenzten Index bei der Beurteilung der Bewertungszuverlässigkeit für mehrere "austauschbare" Bewerter oder der Homogenität zwischen Analyseeinheiten.
Wir machen normalerweise die folgende Unterscheidung zwischen den verschiedenen Arten von ICCs. Dies folgt aus der wegweisenden Arbeit von Shrout und Fleiss (1979):
- Einweg-Zufallseffektmodell , ICC (1,1): Jeder Punkt wird von verschiedenen Bewertern bewertet, die als aus einem größeren Pool potenzieller Bewerter entnommen betrachtet werden. Daher werden sie als zufällige Effekte behandelt. Der ICC wird dann als Prozentsatz der Gesamtvarianz interpretiert, der auf die Varianz der Probanden / Gegenstände entfällt. Dies wird als Konsistenz-ICC bezeichnet.
- Zwei-Wege-Zufallseffektmodell , ICC (2,1): Beide Faktoren - Bewerter und Elemente / Probanden - werden als zufällige Effekte angesehen, und wir haben zusätzlich zur Restvarianz zwei Varianzkomponenten (oder mittlere Quadrate); Wir gehen ferner davon aus, dass die Bewerter alle Punkte / Themen bewerten. Der ICC gibt in diesem Fall den Prozentsatz der Varianz an, der auf Bewerter + Gegenstände / Probanden entfällt.
- Zweiwege-Mischmodell , ICC (3,1): Im Gegensatz zum Einweg-Ansatz werden hier Bewerter als feste Effekte betrachtet (keine Verallgemeinerung über die vorliegende Stichprobe hinaus), Gegenstände / Probanden werden jedoch als zufällige Effekte behandelt. Die Analyseeinheit kann die Einzel- oder die Durchschnittsbewertung sein.
Dies entspricht den Fällen 1 bis 3 in Tabelle 1. Eine zusätzliche Unterscheidung kann getroffen werden, je nachdem, ob wir der Ansicht sind, dass die beobachteten Bewertungen der Durchschnitt mehrerer Bewertungen sind (sie werden als ICC (1, k), ICC (2, k) bezeichnet. und ICC (3, k)) oder nicht.
In der Summe müssen Sie das richtige Modell auswählen (Einweg vs. Zweiweg), und dies wird in Shrout und Fleiss 'Artikel weitgehend diskutiert. Ein Einwegmodell liefert tendenziell kleinere Werte als das Zweiwegmodell. Ebenso liefert ein Zufallseffektmodell im Allgemeinen niedrigere Werte als ein Modell mit festen Effekten. Ein aus einem Modell mit festen Effekten abgeleiteter ICC wird als ein Weg zur Bewertung der Konsistenz der Bewerter angesehen (da wir die Varianz der Bewerter ignorieren), während wir für ein Modell mit zufälligen Effekten von einer Schätzung der Übereinstimmung der Bewerter sprechen (ob die Bewerter austauschbar sind oder nicht). Nur die Zwei-Wege-Modelle enthalten die Interaktion zwischen Rater und X-Subjekt, die bei dem Versuch, untypische Bewertungsmuster zu entschlüsseln, von Interesse sein könnte.
Die folgende Abbildung ist leicht ein Kopieren / Einfügen des Beispiels aus ICC()
dem Psychopaket (Daten stammen von Shrout und Fleiss, 1979). Die Daten bestehen aus 4 Richtern (J), die 6 Probanden oder Ziele (S) bewerten, und sind nachstehend zusammengefasst (ich gehe davon aus, dass sie als R-Matrix mit dem Namen gespeichert sind sf
).
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Dieses Beispiel ist interessant, weil es zeigt, wie die Wahl des Modells die Ergebnisse beeinflussen kann, daher die Interpretation der Zuverlässigkeitsstudie. Alle 6 ICC-Modelle sind wie folgt (dies ist Tabelle 4 in Shrout und Fleiss 'Artikel)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Wie zu sehen ist, würde die Betrachtung von Bewertern als feste Effekte (daher nicht der Versuch, auf einen größeren Pool von Bewertern zu verallgemeinern) einen viel höheren Wert für die Homogenität der Messung ergeben. (Ähnliche Ergebnisse konnten mit dem irr- Paket ( icc()
) erzielt werden , obwohl wir mit der unterschiedlichen Option für Modelltyp und Analyseeinheit spielen müssen.)
Was sagt uns der ANOVA-Ansatz? Wir müssen zwei Modelle anpassen, um die relevanten mittleren Quadrate zu erhalten:
- ein Einwegmodell, das nur das Thema berücksichtigt; Dies ermöglicht es, die zu bewertenden Ziele (MS zwischen Gruppen, BMS) zu trennen und eine Schätzung des In-Error-Terms (WMS) zu erhalten.
- ein Zwei-Wege-Modell, das Subjekt + Bewerter + ihre Interaktion berücksichtigt (wenn es keine Replikationen gibt, wird dieser letzte Term mit den Residuen verwechselt); Dies ermöglicht die Schätzung des Rater-Haupteffekts (JMS), der berücksichtigt werden kann, wenn ein Zufallseffektmodell verwendet werden soll (dh wir addieren es zur Gesamtvariabilität).
Der F-Test muss nicht angeschaut werden, hier sind nur MS von Interesse.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Jetzt können wir die verschiedenen Teile in einer erweiterten ANOVA-Tabelle zusammenstellen, die wie die unten gezeigte aussieht (dies ist Tabelle 3 in Shrout und Fleiss 'Artikel):
(Quelle: mathurl.com )
Dabei stammen die ersten beiden Zeilen aus dem Einwegmodell, während die nächsten beiden aus der Zweiweg-ANOVA stammen.
Es ist einfach, alle Formeln in Shrout und Fleiss 'Artikel zu überprüfen, und wir haben alles, was wir brauchen, um die Zuverlässigkeit für eine einzelne Bewertung abzuschätzen . Was ist mit der Zuverlässigkeit für den Durchschnitt mehrerer Bewertungen (was häufig das Interesse an Interrater-Studien ist)? Nach Hays und Revicki (2005) kann es aus der obigen Zerlegung erhalten werden, indem nur die im Nenner berücksichtigte Gesamt-MS geändert wird, mit Ausnahme des Zwei-Wege-Zufallseffektmodells, für das wir das Verhältnis der MS umschreiben müssen.
- Im Fall von ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) wird die Gesamtzuverlässigkeit als (BMS-WMS) / BMS = 0,443 berechnet.
- Für den ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) beträgt die Gesamtzuverlässigkeit (N • (BMS-EMS)) / (N · BMS + JMS-EMS) = 0,620.
- Schließlich haben wir für ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) eine Zuverlässigkeit von (BMS-EMS) / BMS = 0,909.
Wiederum stellen wir fest, dass die allgemeine Zuverlässigkeit höher ist, wenn Bewerter als feste Effekte betrachtet werden.
Verweise
- Shrout, PE und Fleiss, JL (1979). Intraclass-Korrelationen: Dient zur Bewertung der Zuverlässigkeit von Bewertern . Psychological Bulletin , 86, 420 & ndash; 3428.
- Hays, RD und Revicki, D. (2005). Zuverlässigkeit und Gültigkeit (einschließlich Reaktionsfähigkeit). In Fayers, P. und Hays, RD (Hrsg.), Assessing Quality of Life in Clinical Trials , 2. Aufl., S. 25-39. Oxford University Press.