Statistischer Test zum Vergleich der Genauigkeit zweier Geräte

Ich vergleiche zwei Temperaturregelgeräte, die beide darauf ausgelegt sind, die Körpertemperatur bei anästhesierten Patienten auf genau 37 Grad zu halten. Die Geräte wurden an 500 Patienten in zwei Gruppen angepasst. Gruppe A (400 Patienten) - Gerät 1, Gruppe B (100 Patienten) - Gerät 2. Bei jedem Patienten wurde die Temperatur 36 Stunden lang einmal pro Stunde gemessen, was mir 18000 Datenpunkte in zwei Gruppen ergab. Ich muss bestimmen, welches Gerät die Körpertemperatur des Patienten über den Zeitraum von 36 Stunden genauer regelt. Ich habe Liniendiagramme erstellt, die die Medianwerte zu jedem Zeitpunkt mit Quartilbalken verbinden, und visuell scheint es einen Unterschied zu geben. Wie soll ich meine Daten analysieren, um einen statistischen Unterschied nachzuweisen?

statistical-significance repeated-measures variance

— RikT
quelle

Haben Sie Patienten zwischen Geräten geteilt? Wenn Sie dies nicht getan haben, muss zusätzlich davon ausgegangen werden, dass die Patienten in zwei Gruppen im weitesten Sinne ähnlich sind .

— Aksakal

Was ist mit einem Modell mit gemischten Effekten? Standardfehler für jede Ebene (Gruppe A / B) geben in gewissem Sinne Auskunft darüber, wie genau die Messungen sind. Sie können die Zeitreihen und Patienten berücksichtigen.

— Roman Luštrik

Antworten:

Das erste, worüber Sie nachdenken müssen, ist, was es (quantitativ) bedeutet, in einem solchen Gerät "gute Präzision" zu haben. Ich würde vorschlagen, dass im medizinischen Kontext das Ziel darin besteht, Temperaturabweichungen zu vermeiden, die in einen gefährlichen Bereich für den Patienten gehen. "Gute Präzision" wird wahrscheinlich dazu führen, dass gefährlich niedrige oder hohe Temperaturen vermieden werden. Das heißt , Sie gehen für eine Metrik zu suchen , die stark große Abweichungen von Ihrer optimalen Temperatur von 37 bestraft C. Im Hinblick darauf, die Messung auf Basis von Schwankungen der mittleren Temperaturen wird eine schlechte Maßnahme sein , Präzision, während Maßnahmen, die große Abweichungen hervorheben, besser sind. $^\text{o}$

Wenn Sie diese Art von Metrik formulieren, übernehmen Sie implizit eine "Straffunktion", die Temperaturen bestraft, die von Ihrer gewünschten Temperatur abweichen. Eine Möglichkeit wäre, die "Präzision" durch geringere Varianz um die gewünschte Temperatur zu messen (wobei dies als fester Mittelwert für die Varianzberechnung behandelt wird). Die Varianz wird durch einen quadratischen Fehler bestraft, so dass eine angemessene Bestrafung für hohe Abweichungen erfolgt. Eine andere Möglichkeit wäre, stärker zu bestrafen (z. B. Cubed-Error). Eine andere Möglichkeit wäre, einfach zu messen, wie lange jedes Gerät den Patienten außerhalb des medizinisch sicheren Temperaturbereichs hat. In jedem Fall sollte Ihre Wahl die wahrgenommenen Gefahren einer Abweichung von der gewünschten Temperatur widerspiegeln.

Sobald Sie festgestellt haben, was eine Metrik für "gute Präzision" darstellt, werden Sie eine Art "Heteroskedastizitätstest" formulieren, der im weiteren Sinne formuliert ist, um das von Ihnen verwendete Maß an Präzision zuzulassen. Ich bin mir nicht sicher, ob ich Whubers Kommentar zur Anpassung an die Autokorrelation zustimme. Es hängt wirklich von Ihrer Verlustformulierung ab. Schließlich kann es am gefährlichsten sein, über einen längeren Zeitraum in einem hohen Temperaturbereich zu bleiben. Wenn Sie sich also wieder anpassen, um die Autokorrelation zu berücksichtigen, können Sie möglicherweise enden bis es nicht gelingt, hochgefährliche Ergebnisse ausreichend zu bestrafen.

— Ben - Monica wieder einsetzen
quelle

Dies ist ein Test der Homoskedastizität. Und da es sich um eine Zeitreihe handelt, ist der Breusch-Pagan- Test und nicht der F-Test die richtige Wahl . Dieser Test beantwortet NUR die Frage der Präzisionsgleichheit zwischen den beiden Geräten. Präzision ist eine andere Art, Varianz zu denken.

[Bearbeiten: Der Test wurde unter Berücksichtigung der Zeitabhängigkeit auf den richtigen geändert.]

— Gary Chung
quelle

Dieser Ansatz ist vernünftig. Aber warum nicht beide Ziele direkt erreichen, indem Dispersionen um die Zieltemperatur verglichen werden und nicht die Varianzen (die nur Dispersionen um Durchschnittstemperaturen messen)? Ein wichtiges Problem, das zuerst überprüft werden muss, betrifft die serielle Korrelation: Wenn sie hoch ist, müssen einige Korrekturen vorgenommen werden (z. B. die Verringerung der Freiheitsgrade in den Tests). Ein weiteres Problem betrifft den Verlust : Die Verlustfunktion ist wahrscheinlich nicht quadratisch. Vielleicht können Menschen kleine Schwankungen leicht tolerieren, aber das Auftreten einer großen Schwankung könnte weh tun. Das sollte untersucht werden.

— whuber

@whuber In Bezug auf den Vergleich der Zieltemperatur, wenn ich es wäre, würde ich genau das tun. Das OP hat speziell nur die Varianzfrage gestellt, also müssen wir das unabhängig von unseren Neigungen direkt ansprechen, ja? :)

— Gary Chung

Das Problem für einen F-Test wird nicht die Normalität sein, sondern wahrscheinlich die Unabhängigkeit. Dies sind Zeitreihen.

— Glen_b -State Monica

@Glen_b Ich kann nicht glauben, dass ich diesen Punkt verpasst habe. Danke, dass du das verstanden hast. Bearbeitet.

— Gary Chung

In Bezug auf Nein: Der Unterschied zwischen dieser Site und beispielsweise der Math-Site besteht darin, dass ein wesentlicher Teil der Beantwortung einer statistischen Frage darin besteht, dem OP zu helfen, sie so zu gestalten, wie sie es beabsichtigt haben. Sehr oft sind korrekte Antworten auf Fragen, wie sie ursprünglich hier gestellt wurden, weniger hilfreich oder sogar irreführend. Unsere erste Aufgabe als aktive Leser und potenzielle Befragte ist es daher, sicherzustellen, dass wir die Frage auf hilfreiche und angemessene Weise interpretieren, und Antworten zu geben, die die Ziele des OP am besten erfüllen. Verwenden Sie Kommentare zu der Frage, um klärende Fragen zu stellen und Ihre Interpretation zu überprüfen.

— whuber

Wenn Sie daran interessiert sind, wie gut Geräte eine Temperatur von 37 ° C halten, können Sie entweder:

Verwenden Sie alle verfügbaren Daten von jeder Person wie sie sind oder
Schätzen Sie die mittlere Abweichung pro Person von 37 ° C anhand der 36 Versuche jeder Person.

Die Daten eignen sich natürlich für die Behandlung mit wiederholten Messungen. Indem Sie Versuche innerhalb der Person als Cluster behandeln, verringern Sie die Wahrscheinlichkeit eines falsch geschätzten Konfidenzintervalls für die Auswirkung des Geräts. Darüber hinaus können Sie den Effekt der Zeit zwischen beiden Geräten oder als Interaktion mit dem Gerät testen, um festzustellen, ob die Aufrechterhaltung der Temperatur über die Zeit gut war. Die Suche nach einer Möglichkeit, all dies zu visualisieren, ist von zentraler Bedeutung und kann einen Ansatz über einen anderen vorschlagen. Etwas in der Art von:

library(dplyr)
library(lme4)

set.seed(42)
id <- rep(1:500, each=36)
time <- rep(1:36,500)
temp <- c(rnorm(36*400, 38,0.5), rnorm(36*100,37.25,0.5))
temp <- temp + 1/time

prox_37 <- temp - 37
group <- c(rep("A",36*400), rep("B",36*100))
graph_t <- ifelse(group=="A", time-0.25, time+0.25)
df <- data.frame(id,time,temp,prox_37,group, graph_t)

id_means <- group_by(df, id) %>% summarize(mean_37 = mean(prox_37))
id_means$group <- c(rep("A",400), rep("B",100))

boxplot(id_means$mean_37 ~ id_means$group)

plot(graph_t, prox_37, col=as.factor(group))
loess_fit <- loess(prox_37 ~ time, data = df)
lines(c(1:36), predict(loess_fit, newdata= c(1:36)) , col = "blue")

summary(t.test(mean_37 ~group, data=id_means))

model1 <- glm(prox_37 ~ as.factor(group), family = "gaussian", data=df)
model2 <- lmer(prox_37 ~ as.factor(group) + (1 | id), data=df)
model3 <- lmer(prox_37 ~ as.factor(group) + time + (1 | id), data=df)
model4 <- lmer(prox_37 ~ as.factor(group) + time + time*as.factor(group) + (1 | id), data=df)

AIC(model1)
summary(model2)
summary(model3)
summary(model4)

— Todd D.
quelle